计算所网络数据团队再获CIKM大奖

2017 年 11 月 14 日 中国科学院网络数据重点实验室 网络数据

      11月8日,正在新加坡举行的ACM CIKM 2017 会议上,中科院计算所网络数据科学与技术重点实验室程学旗老师团队的博士生范意兴(导师:郭嘉丰)为第一作者的论文“Learning Visual Features from Snapshots for Web Search”(作者:范意兴,郭嘉丰,兰艳艳,徐君,庞亮,程学旗)获得了Best Full Paper Runner-up Award,这是继2011年网络数据重点实验室的论文“Intent-aware query similarity”(作者:郭嘉丰,徐谷,朱小飞,程学旗)获得CIKM Best Paper Award之后,该团队的研究工作再度得到CIKM大会的肯定。同时,郭嘉丰研究员还获得了CIKM Outstanding Reviewer奖项。

        本次获奖的研究工作是智能搜索团队在NeuIR方向上的最新探索,从视觉感知的角度研究相关排序,打破了传统信息排序以文本匹配和链接分析为主的模式,从而能充分利用深度学习在图像层面的能力直接提升信息检索性能。论文在盲审阶段就获得了三个评审一致的strong accept。
        众所周知,查询与文档的相关性建模一直是信息检索技术研究中的核心问题,当前的信息检索系统广泛采用机器学习的方法来计算网页相关性,其中非常重要的一步就是构建能够描述网页相关性的特征。传统的特征构建方法大都基于网页中抽取出的文本元素(如标题、正文等)或者链接/点击信息来构建,即使是近期的深度学习排序方法,也大都基于原始文本来学习匹配特征。然而网页并非只是相互链接的文本数据,而是经过精心设计、有着结构化外观的页面,页面布局所携带的丰富的视觉信息本身就能够传递很多相关性信息。例如一个权威的、高质量的网页通常具有良好的布局,而一个低质量的垃圾页面,则可能充斥各种广告信息;而查询词在网页上的分布、大小、颜色等,更是能够为网页相关性判断提供丰富的信号。


        鉴于此,网络数据重点实验室的师生首次从视觉感知的角度来研究相关性特征,即让机器学习算法像用户查看网页一样直接来感知相关性信号。具体的,他们将网页渲染成两类快照,即查询无关和查询相关的网页快照。在此基础上,受人们在阅读网页时视觉浏览模式( F型浏览方式)的启发,他们设计了一个网页视觉感知模型ViP(如上图)从网页快照中直接学习相关性特征,这些视觉特征可以和很多传统特征共同决定网页的相关性。此外,他们还为网页快照提出了一个高效的索引机制,以便能在实际搜索系统中快速获取查询无关或查询相关的网页快照。通过在公开数据集上的大量实验表明,视觉感知获得的相关性特征能显著提升传统的基于人工定义特征的排序性能。
        ACM CIKM是国际计算机学会主办的信息检索领域的重要学术会议,2017年CIKM在新加坡泛太平洋酒店举办,本届会议参会人数达到700人数以上,全球40多个国家的研究人员与国内外产业巨头均积极参与本次盛会。本届大会共收到稿件1450篇(其中长文投稿855篇),长文录用171篇(录用率20%),大会在投稿规模逐年增长的同时,录用率相比往年还有所下降,可见录用竞争非常激烈,相关的研究工作体现了信息检索、数据库和知识管理领域国际前沿的研究水平。在本次会议上,网络数据重点实验室共发表4篇长文和1篇短文。计算所网络数据重点实验室是中科院首个大数据方向的重点实验室,在程学旗研究员的带领下,长期在智能搜索、机器学习、社会计算、大数据引擎系统等方向上展开基础研究,近年来郭嘉丰研究员、兰艳艳副研究员及其所在的团队一直专注于深度学习搜索(NeuIR)研究方向,本次录用的两篇长文都是这个方向上的最新成果。(欢迎访问http://www.bigdatalab.ac.cn/~gjf/获取相关论文)


登录查看更多
1

相关内容

郭嘉丰,博士,现任中国科学院计算技术研究所研究员,中科院网络数据科学与技术重点实验室副主任,中国科学院大学岗位教授,国家自然科学基金优秀青年基金获得者,中科院青年促进会优秀会员。长期从事信息检索与数据挖掘方向的基础研究,研究方向包括用户查询理解、排序学习、文本建模、深度学习检索等。在本领域国际重要学术会议与期刊上发表学术论文100余篇(如TKDE、SIGIR、AAAI、CIKM等),Google Scholar累计引用3400余次,获得ACM CIKM 2011最佳论文奖,ACM SIGIR 2012最佳学生论文奖,ACM CIKM 2017最佳论文Runner-up奖。担任本领域国际重要学术期刊ACM TOIS、Information Retrieval Journal的编委以及主要国际会议的程序委员会高级评审委员、委员等,获得ACM CIKM 2017杰出评审委员。研究形成的相关成果应用于工信部、安全部等业务单位以及今日头条、搜狗等互联网公司,获得2012年国家科技进步二等奖、2011年中国电子学会科技进步奖一等奖、2012年中国中文信息学会 “钱伟长中文信息处理科学技术奖——汉王青年创新奖”一等奖。
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
计算所网络数据实验室3篇论文被WSDM2020录用
中国科学院网络数据重点实验室
26+阅读 · 2019年10月11日
字节跳动 2019 ICME 双赛道冠军团队方案分享
PaperWeekly
50+阅读 · 2019年8月12日
从数据结构到算法:图网络方法初探
机器之心
7+阅读 · 2019年8月12日
已删除
将门创投
4+阅读 · 2018年12月10日
论文|2017CIKM-Network Embedding专题论文分享
蚂蚁程序猿
8+阅读 · 2017年12月20日
【深度】多媒体计算国际团队:从单通道感知到跨媒体认知
中国科学院自动化研究所
73+阅读 · 2017年8月14日
已删除
将门创投
7+阅读 · 2017年7月11日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Learning by Abstraction: The Neural State Machine
Arxiv
6+阅读 · 2019年7月11日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
相关资讯
计算所网络数据实验室3篇论文被WSDM2020录用
中国科学院网络数据重点实验室
26+阅读 · 2019年10月11日
字节跳动 2019 ICME 双赛道冠军团队方案分享
PaperWeekly
50+阅读 · 2019年8月12日
从数据结构到算法:图网络方法初探
机器之心
7+阅读 · 2019年8月12日
已删除
将门创投
4+阅读 · 2018年12月10日
论文|2017CIKM-Network Embedding专题论文分享
蚂蚁程序猿
8+阅读 · 2017年12月20日
【深度】多媒体计算国际团队:从单通道感知到跨媒体认知
中国科学院自动化研究所
73+阅读 · 2017年8月14日
已删除
将门创投
7+阅读 · 2017年7月11日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
相关论文
Top
微信扫码咨询专知VIP会员