论文作者 | 张帆、刘奕群、李昕、徐盈辉、张敏、马少平
(清华大学)
特约记者 | 杨凯杰(南京理工大学)
在信息检索技术研究中,评价指标的设计是对检索系统进行评价的重要一环。而在评价指标的建模中,估计用户的期望收益与期望付出是搜索用户行为模型的关键组成部分,用户在实际搜索会话中终止条件的判断会同时受这两方面的影响。
但由于受模型框架限制,当前几乎所有信息检索评价指标均无法做到同时将用户的期望收益和期望付出纳入会话终止条件的估计。那么如何对用户的交互过程进行建模,从而将这两者考虑进去呢?
在今年 SIGIR 的最佳学生论文 Evaluating Web Search with a Bejeweled Player Model 中,作者针对传统信息检索评价指标设计时未能兼顾用户期望收益与期望付出两方面因素的缺陷,借鉴“宝石迷阵”这款游戏设计了一个创新性的用户交互模型框架,将用户的期望收益与期望付出因素重新建模,建立了相应的评价体系,取得了显著效果。
在游戏“宝石迷阵”中,关卡开始时会出现半满的时间条,每秒不断减少。玩家必须通过匹配宝石来获得更多的时间,匹配越多时间条增长越多。当时间条积累至满时,玩家进入下一关;当时间条消耗殆尽时,玩家将输掉关卡。总而言之,当前关卡的终止条件可以是时间条空(游戏结束)或时间条满(进入下一关)。
与游戏类似,失望(Frustration)和满意(Satisfaction)也是信息搜索的两个终止状态。作者假设失望意味着用户付出(Cost)过多后失去耐心,满意代表收益(Benefit)达成,提出 BPM(Bejeweled Player Model)模型来描述信息检索的终止条件。但不同的是,游戏中的付出与收益均使用时间来表示,而 BPM 模型将付出与收益分别累计并且有各自的上限。达到任一上限则会话结束。
△ 图1:基于BPM模型的用户搜索评价框架
既然传统评价指标只考虑用户期望收益与期望付出中某一方面因素,那么现有评价指标是否可以利用 BPM 框架进行解释呢?作者在文中通过分析不同评价指标用户期望收益与期望付出的不同定义,将现有绝大多数评价指标纳入 BPM 框架中,表明现有的评价指标是新框架下指标的某种退化形式,并以 DCG 为例进行了严格数学证明。
为了验证 BPM 模型的有效性,作者没有按照通常的方法将不同评价指标用于不同检索系统的比较,而是在真实用户的实验数据集上,比较了不同指标与用户反馈的满意度之间的相关系数。实验结果表明,文中的指标能够更好地拟合用户的满意度,从而表明了新框架的有效性。
△ 图2:在不同类型查询上DCG@10和静态BPM指标与用户满意度的相关性
△ 图3:在信息类查询上不同参数下静态和动态BPM指标与用户满意度的相关性
对话作者
关注信息检索评价领域的问题也已经一年多了,之前其实是打算开展移动端的搜索评价研究,不过一次组会的讨论催生了新的想法。从一开始对收益与付出的讨论,到用户感知因素的考虑,再到以游戏为基础的交互模型的提出,整个工作的框架在一次次的思维碰撞中不断完善。
从小到大也玩过不少游戏,但从未想过有一天会将游戏写到论文中。刚开始的时候只是单纯觉得这个想法挺有意思,之后则是对已有指标的分析与推导,这个过程中自己也有了一些信心,至少这个工作不会是完全没有意义的。最后的结果也还不错,能够获得 SIGIR 的最佳学生论文可以说是意外之喜吧,这里也要感谢我实验室的老师们和同学们。
信息检索的评价还有很多值得研究的地方,特别是目前我们对于用户搜索时的认知过程了解得还不是很清楚,大多已有工作都基于一些相对简单的用户行为假设。如何更好地对用户的交互过程进行建模,并将其应用于搜索评价,还需要更多感兴趣的学者的共同努力。
欢迎点击「阅读原文」查看论文:
Evaluating Web Search with a Bejeweled Player Model
关于中国中文信息学会青工委
中国中文信息学会青年工作委员会是中国中文信息学会的下属学术组织,专门面向全国中文信息处理领域的青年学者和学生开展工作。
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。