11月8日,正在新加坡举行的ACM CIKM 2017 会议上,中科院计算所网络数据科学与技术重点实验室程学旗老师团队的博士生范意兴(导师:郭嘉丰)为第一作者的论文“Learning Visual Features from Snapshots for Web Search”(作者:范意兴,郭嘉丰,兰艳艳,徐君,庞亮,程学旗)获得了Best Full Paper Runner-up Award,这是继2011年网络数据重点实验室的论文“Intent-aware query similarity”(作者:郭嘉丰,徐谷,朱小飞,程学旗)获得CIKM Best Paper Award之后,该团队的研究工作再度得到CIKM大会的肯定。同时,郭嘉丰研究员还获得了CIKM Outstanding Reviewer奖项。
本次获奖的研究工作是智能搜索团队在NeuIR方向上的最新探索,从视觉感知的角度研究相关排序,打破了传统信息排序以文本匹配和链接分析为主的模式,从而能充分利用深度学习在图像层面的能力直接提升信息检索性能。论文在盲审阶段就获得了三个评审一致的strong accept。
众所周知,查询与文档的相关性建模一直是信息检索技术研究中的核心问题,当前的信息检索系统广泛采用机器学习的方法来计算网页相关性,其中非常重要的一步就是构建能够描述网页相关性的特征。传统的特征构建方法大都基于网页中抽取出的文本元素(如标题、正文等)或者链接/点击信息来构建,即使是近期的深度学习排序方法,也大都基于原始文本来学习匹配特征。然而网页并非只是相互链接的文本数据,而是经过精心设计、有着结构化外观的页面,页面布局所携带的丰富的视觉信息本身就能够传递很多相关性信息。例如一个权威的、高质量的网页通常具有良好的布局,而一个低质量的垃圾页面,则可能充斥各种广告信息;而查询词在网页上的分布、大小、颜色等,更是能够为网页相关性判断提供丰富的信号。
鉴于此,网络数据重点实验室的师生首次从视觉感知的角度来研究相关性特征,即让机器学习算法像用户查看网页一样直接来感知相关性信号。具体的,他们将网页渲染成两类快照,即查询无关和查询相关的网页快照。在此基础上,受人们在阅读网页时视觉浏览模式( F型浏览方式)的启发,他们设计了一个网页视觉感知模型ViP(如上图)从网页快照中直接学习相关性特征,这些视觉特征可以和很多传统特征共同决定网页的相关性。此外,他们还为网页快照提出了一个高效的索引机制,以便能在实际搜索系统中快速获取查询无关或查询相关的网页快照。通过在公开数据集上的大量实验表明,视觉感知获得的相关性特征能显著提升传统的基于人工定义特征的排序性能。
ACM CIKM是国际计算机学会主办的信息检索领域的重要学术会议,2017年CIKM在新加坡泛太平洋酒店举办,本届会议参会人数达到700人数以上,全球40多个国家的研究人员与国内外产业巨头均积极参与本次盛会。本届大会共收到稿件1450篇(其中长文投稿855篇),长文录用171篇(录用率20%),大会在投稿规模逐年增长的同时,录用率相比往年还有所下降,可见录用竞争非常激烈,相关的研究工作体现了信息检索、数据库和知识管理领域国际前沿的研究水平。在本次会议上,网络数据重点实验室共发表4篇长文和1篇短文。计算所网络数据重点实验室是中科院首个大数据方向的重点实验室,在程学旗研究员的带领下,长期在智能搜索、机器学习、社会计算、大数据引擎系统等方向上展开基础研究,近年来郭嘉丰研究员、兰艳艳副研究员及其所在的团队一直专注于深度学习搜索(NeuIR)研究方向,本次录用的两篇长文都是这个方向上的最新成果。(欢迎访问http://www.bigdatalab.ac.cn/~gjf/获取相关论文)