关于学术搜索 你想知道的看这篇就够了!

2020 年 5 月 13 日 学术头条


导读


AI 赋能的学术搜索如何帮助我们更智能、更省力、更高效地查论文、查作者呢?


作为一名科研人士(dog),搞学术做科研的你肯定离不开学术搜索。
高效地进行文献调研是你必备的技能之一。
当你需要研究某个特定问题时,通过精确搜索可以帮助你寻找到相关的论文。
当你接触一个新领域时,搜索综述文章可以帮助你对该领域有一个基础性的认识。
当你想要拜读某领域大牛的文章时,通过论文搜索可以助你寻找高质量、最前沿的文献资源。
当你想要寻找论文导师或科研合作者时,通过学者搜索可以掌握该学者发表的论文、研究方向和学术合作关系。
……
可以说,学术搜索的出现,让普通人“站在巨人的肩上”更容易了一些。

近日,AMiner正式对外发布《人工智能之学术搜索》报告。该报告以AI赋能的学术搜索为核心,在梳理学术搜索概念特征,以及传统学术搜索相关技术的基础上,重点研究分析AI技术在学术搜索领域的应用情况、领域专家现状、典型产品的资源覆盖和功能特色,以及AI学术搜索领域的发展趋势,探讨了学术搜索领域的市场主体如何才能更“智能”、更“聪明”、更“定制化”地为科研用户提供服务。

这份报告呈现出三大亮点:
  • 展示AI学术搜索相对于传统学术搜索的优势;
  • 展示已助力学术搜索发展的具体AI技术现状和趋势;
  • 基于AI学术搜索技术趋势,为市场主体产品的性能提升提出建议。

这份报告不论是对于正在从事搜索引擎研究的科研人员,还是每天使用学术搜索的研究者,都是一份内容满满、干货十足的报告。


学术搜索的前世今生

报告详细梳理了学术搜索产品的时间演化路线,并对各个学术搜索产品进行了对比,还重点介绍了不少目前涌现的嵌入AI技术特色的学术搜索。

伴随着计算机网络技术的发展,自上世纪90年代以来,很多机构都推出了功能不同、搜索范围各异的学术搜索引擎,学术搜索产品可谓层出不穷。

自1997年荷兰老牌出版商爱思唯尔推出学术搜索-ScienceDirect至今,学术搜索已经走过了五个阶段:传统文献检索阶段(20世纪90年代之前)、早期文献搜索阶段(20世纪90年代-2000年)、初期学术搜索阶段(20世纪90年代末-2003年)、开放互联网学术搜索阶段(2004-2009年)、智能化学术搜索阶段(2010-至今)。

除了政府部门、大学、图书馆等机构,一些著名搜索引擎公司也在致力于相关搜索产品开发。根据一项对用户使用学术搜索产品的一项调研,国内用户最常用的学术搜索工具依次是谷歌学术、知网、百度学术、Web of Science、微软学术以及AMiner等工具。

下表列出了16个有代表意义的学术搜索,可以一目了然地看到各个学术搜索的特点。


2004年,多个学术搜索产品问世,其中以谷歌学术最为知名,达到了传统学术搜索有史以来的技术高峰。之后几年,AMiner、微软学术、百度学术等商业产品相继上线。同时,AI技术被大规模地应用于学术搜索领域,市场上各个搜索产品不断升级、增添各自AI特色。

先来看看Aminer学术搜索。2006年Aminer正式上线,基于文献、专利、成果和专家信息深入分析挖掘,Aminer科研智能搜索引擎构建了专家画像和知识图谱,挖掘知识推理网络。平台以科研人员、科技文献、学术活动三大类数据为基础,构建三者之间的关联关系,深入分析挖掘,面向全球科研机构及相关工作人员,提供学者、论文文献等学术信息资源检索以及面向科技文献、专利和科技新闻的语义搜索、语义分析、成果评价等知识服务。Aminer学术资源覆盖全球1.36亿学者,超过2.3亿篇论文,7.5亿论文引用关系,879万知识概念,以及超过160个特色专家子库。

再来看看Semantic Scholar。2015年,由微软联合创始人保罗•艾伦创办的艾伦人工智能研究所(AI2),推出了以AI理念创新设计的学术搜索产品——Semantic Scholar,与其他产品通过升级迭代引入AI技术不同,其“智能”性功能更为显著。

相比以往基于网络蜘蛛的智能化信息抓取、基于语义技术的用户意图自动识别及个性化搜索等“人工智能”在搜索引擎的表现,Semantic Scholar是基于深度学习而实现系统对论文内容的理解,更接近目前所实现的人机大战模式的人工智能,将更有利于帮助用户筛选有用信息,提高学术信息搜索和过滤的效率。

不同于其他学术搜索产品,Semantic Scholar 依赖于其强大的AI技术而仅提供单一检索选项。Semantic Scholar利用“机器阅读”技术从文本中挑选出最重要的关键词和短语, 而且不需要依赖作者或出版商键入这些关键词。此外,它可以判断文章所论述的主题, 也可以从论文中提取图表, 将它们呈现在检索结果中, 帮助用户快速理解论文内容。Semantic Scholar用户也可以进行过滤筛选,通过筛选最近5年、文献、是否有PDF、是否有视频、出版物类型、作者、期刊会议名称等选项更加精准地找到所需文献。


学术资源知多少

作为一个细分的垂直搜索,学术搜索产品的价值主要在于其占有的学术资源。

目前,多数产品的学术资源均是覆盖多个学科的期刊或会议论文、学位论文、图书、报告等文献。有的产品还包括专利数据,例如Google Scholar和百度学术。
主要学术搜索产品的资源覆盖情况见下表:


产品功能不尽相同

学术搜索产品基本功能相互类似,但是在AI技术引入程度方面存在差异。

除了Semantic Scholar 因AI特色独特而仅提供单一检索选项之外,其他学术搜索产品均都同时提供一般搜索、高级搜索两个选项。

目前的学术搜索产品在结果显示、全文获取方式、文献引用和导出等方面的功能多数类似,仅存在一些细微差异。与此同时,一些学术搜索产品还陆续推出了网络关系分析服务和可视化分析功能、专家检索功能和审稿人推荐功能。

按照学术搜索产品的功能来划分:S-专家检索;N-网络关系分析;K-知识图谱;D-命名排歧;I-多源数据融合;V-可视化分析;P-学术资源推送;R-审稿人推荐;B-文献管理;E-学术指标评价。



让学术搜索成为科研工作的“阿法狗”

目前,学术搜索产品正在不断地优化技术和产品性能。作为用户,对AI学术搜索未来发展当然也存在很多期待。

据此,这份报告对AI学术搜索产品未来产品升级提出以下建议,供产品开发者和服务者参考。

一是扩展现有产品的学术资源覆盖。建议产品方开拓更多合作渠道获取学术资源为用户服务。其中,会议论文资源建议更多增加。

二是升级现有产品的文献检索功能。在现有搜索功能基础上,增加更多搜索域。在搜索结果中,展示出研究领域代表性论文、重要文献

三是将结果更多地进行可视化展现。用户希望将搜索结果进行统计,以数据图表等可视化方式将结果展示出来。

四是增加领域作者和技术的更多内容

五是优化辅助功能。建议今后推荐相关论文、最新论文或作者时,能够提高论文和学者推荐的准确性;根据用户偏好或以往搜索历史等进行更多的个性化推荐

六是逐渐实现更多的AI突破,减轻用户的科研负担。我们发现,用户对学术搜索产品的“智能”特色期待较高。用户不仅希望通过学术搜索产品能够自动识别关键论文、进行关键词联想、自动生成bibliography文件,而且希望产品能够帮助快速梳理某一领域的研究脉络、文献思想传承,自动生成文献综述,进而自动对论文进行归纳总结,并且展示出论文用途,甚至能回答自己的任何学术问题,成为自己科研工作的“阿法狗”。(编辑/学术心)

《人工智能之学术搜索》报告重磅发布:呈现知识和算法双引擎驱动的未来发展趋势


公众号对话框回复“学术搜索”,获取《人工智能之学术搜索》报告完整版!


近期精彩集锦(点击蓝色字体跳转阅读):

公众号对话框回复“ 2020科技趋势 ”,获取 《2020科技趋势报告》 完整版PDF!
公众号对话框回复“ AI女神 ”,获取 《人工智能全球最具影响力女性学者报告》 完整版!
公众号对话框回复“ AI10 ”,获取 《浅谈人工智能下一个十年》 主题演讲PPT!
公众号对话框回复“ GNN ”,获取 《图神经网络及认知推理》 主题演讲PPT!
公众号对话框回复“ AI指数 ”,获取 《2019人工智能指数报告》 完整版PDF!
公众号对话框回复“ 3D视觉 ”,获取 《3D视觉技术白皮书》 完整版PDF!



点击阅读原文,查看更多精彩!

登录查看更多
0

相关内容

【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
114+阅读 · 2020年6月26日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
【论文扩展】欧洲语言网格:概述
专知会员服务
6+阅读 · 2020年3月31日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
161+阅读 · 2020年2月27日
自动机器学习:最新进展综述
专知会员服务
116+阅读 · 2019年10月13日
关于人脸识别的最全研究!
人工智能学家
7+阅读 · 2019年9月20日
清华大学:人工智能之知识图谱(附PPT)
人工智能学家
65+阅读 · 2019年6月9日
“综述”类文章的共性问题—兼对 410 篇综述稿的分析
清华大学研究生教育
5+阅读 · 2018年7月31日
关于Python数据分析,这里有一条高效的学习路径
算法与数据结构
5+阅读 · 2018年1月17日
关于孩子的未来,汪涵和李锐想告诉你这些......
三联生活周刊
6+阅读 · 2017年10月28日
如何做文献综述:克雷斯威尔五步文献综述法
清华大学研究生教育
20+阅读 · 2017年7月10日
Logic Rules Powered Knowledge Graph Embedding
Arxiv
7+阅读 · 2019年3月9日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
4+阅读 · 2018年9月11日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关资讯
关于人脸识别的最全研究!
人工智能学家
7+阅读 · 2019年9月20日
清华大学:人工智能之知识图谱(附PPT)
人工智能学家
65+阅读 · 2019年6月9日
“综述”类文章的共性问题—兼对 410 篇综述稿的分析
清华大学研究生教育
5+阅读 · 2018年7月31日
关于Python数据分析,这里有一条高效的学习路径
算法与数据结构
5+阅读 · 2018年1月17日
关于孩子的未来,汪涵和李锐想告诉你这些......
三联生活周刊
6+阅读 · 2017年10月28日
如何做文献综述:克雷斯威尔五步文献综述法
清华大学研究生教育
20+阅读 · 2017年7月10日
Top
微信扫码咨询专知VIP会员