"AI之夏"学术沙龙系列讲座第4讲:基于联合索引优化的稠密向量检索

3026 views

报告摘要

文本检索和排序是信息检索领域的核心问题。为了兼顾大规模语料库上的检索性能和效率,信息检索模系统通常包括检索(召回)和排序(精排)两个步骤。随着深度学习技术的快速发展,研究者开始构建基于深度神经网络的排序模型和稠密向量检索模型,并在两个阶段均取得了明显的性能提升。然而,在第一阶段检索过程中,我们不仅要考虑模型的召回性能,还需要关注检索模型的效率。此次报告将介绍我们通过联合优化神经网络和稠密向量索引来进一步优化稠密向量检索模型的存储和时间开销的相关研究工作。

主讲人信息

毛佳昕

准聘助理教授
毛佳昕于2013年和2018年获得清华大学学士和博士学位。博士毕业后曾在清华大学担任博士后研究员,于2020年加入中国人民大学高瓴人工智能学院,任准聘助理教授,博士生导师。其主要研究方向为信息检索、网络搜索、搜索用户行为分析、基于稠密向量的检索。曾在SIGIR、TOIS、WWW、WSDM、CIKM、IJCAI、ECIR等信息检索领域顶级会议和期刊发表论文60余篇。曾获得WSDM 2022最佳论文奖、SIGIR 2020最佳论文提名奖、计算机学报五年最佳论文奖(2014-2018)、ICTIR 2019最佳短文提名奖和SIGIR 2018最佳短文提名奖。 毛佳昕现担任ACM SIGIR学生事务联合主席(Student Affairs co-Chair)、中国中文信息学会信息检索专委会通讯委员等职务。