动态 | AMiner新功能:技术趋势分析—挖掘技术源头、近期热度和全局热度

2018 年 12 月 28 日 AI科技评论

AMiner (http://aminer.org)是科研人员和知识图谱为中心的科技情报智能挖掘系统。系统基于机器学习、自然语言处理、数据挖掘、社会网络分析以及语义搜索等技术,实现了科技情报网络的语义化和智能化搜索。系统相关技术获得北京市科技进步一等奖和中国人工智能学会科技进步一等奖。系统上线运行超过十年,用户超过1000万,覆盖全球220个国家和地区。



开放全新功能 技术趋势分析


近日,AMiner开放了一个全新功能:技术趋势分析(http://trend.aminer.cn)。

该功能基于AMiner超过2亿篇论文数据进行深入挖掘,包括对技术来源、热度、发展趋势进行研究,进而预测未来的技术前景。


技术趋势分析的方法

技术趋势分析描述了技术的出现、变迁和消亡的全过程,它可以帮助研究人员理解领域的研究历史和现状,快速识别研究的前沿热点问题。学者运用统计分析、模型构建、AHP等方法对技术发展路径进行了一系列研究,这些方法大多是偏重于专家德尔菲法的定性分析,重点在于指标的设定,缺乏定量数据分析。另有一些研究者利用专利主路径分析研究技术的变迁,然而较少考虑技术主题随着时间的继承、分裂和融合。基于数据挖掘的主题变迁通过挖掘深层次的科技文本语义信息,能够有效的解决这一问题。

主题变迁是指一个领域的研究主题的内容和热度随着时间变化的现象,通过识别并关联不同时间片的技术主题,探索和分析领域主题变迁并通过可视化的方式进行展示,可以从更全面的视角感知技术的演进,对于技术发展路径识别具有重要意义。

技术流程

基于科技知识图谱,AMiner以可视化的方式,对查询领域q的热度演化趋势进行总结。

具体而言,某一技术领域q的热度,可以定义为该技术相关术语集合T q = {t} 在y年中的所有文献内的词频数。在这一设定下,问题的关键在于如何定位一个技术领域所相关的术语集合。AMiner将领域术语集合定义为该领域内专家常用的关键词。其具体算法流程如下:


首先

根据输入的领域查询词q进行专家搜索,得到候选专家集合{A}q。


其次

对候选{A}q根据与q的相关度和该专家的权威度(见公式(6-1))进行排序。取出排序结果中的前K个专家{A}K q作为分析对象。


最后

获取{A}K q 中每位专家历年的研究成果,分别抽取关键词,构成术语集合T q。进而,技术趋势分析被转化为针对术语集合T q 热度的分析。

相关研究


主题识别

主题识别是指利对领域文献进行挖掘,以发现其中隐含的研究主题。随着文献爆发式增长,主题识别面临着文本维度高和数据类型复杂的挑战,传统的基于专家知识的定性方法不再适应现实情况,基于机器学习的自动化识别逐渐成为主流。目前研究人员针对自动主题识别提出了许多方法和模型,其中主题模型已经成为技术主题识别领域最常用的方法模型。

专家学者是科学研究的主体,一些杰出学者往往引领着学科的发展,可以通过挖掘杰出学者公开发表的科技文献,发现科学领域的主要研究主题以及主题之间的联系。一些关键词被某一学者在发表的文章中提及,可能表明这些关键词之间存在一定的关联关系;如果这些关键词被不同的作者提及,可能说明不同作者认可这些关键词之间的关联关系,可认为这些关键词能够构成研究主题。如果某个关键词在作者的文章中多次出现,可以表明作者对关键词所代表的研究主题做了大量研究,并间接说明作者对该领域具有一定的影响力。


主题关联和可视化

为了分析技术主题变迁,通常需要根据发表时间将文献划分到相应的时间片内,通过文本挖掘获得不同时间片上的主题,将这些主题关联起来是主题变迁的核心步骤,主题能否关联决定着主题之间是否存在变迁关系。崔凯等利用KL相对熵来度量主题之间差异性,李湘东等利用JS距离对期刊主题相似度进行衡量。为了便于直观了解技术发展路径,主题关联需要进行可视化展示,主题关联和可视化关系密不可分,可视化是为了更好的主题变迁分析,并可以展示技术发展路径。

现有的路径可视化工具众多,其中陈超美基于java开发出Citespace I和Citespace Ⅱ,这两款软件具有时序分割,同被引分析、时序网络可视化等功能。Susan Havre等推出ThemeRiver模型,用于反应文档主题强度信息的变化过程。微软亚洲研究院提出TextFlow方法,在海量文本分析中引入主题合并和分裂的信息。

具体分析

我们将为大家展示AMiner中技术趋势分析系统的Answer machine领域的界面截图。在该系统中,术语集合的热度被可视化地展示为Sorted Stream Graph的形式。

其中,图中的每个彩色分支表示一个术语,其宽度表示该术语在当年的热度,各分支在每一年份在图中按照其热度进行排序。

系统包括三个视图:技术源头、近期热度和全局热度,用于展示领域发展的开端和现状,以及相关领域热度的变化趋势。



Answer machine 技术源头图


从图中可以观察到,综合来看,Answer machine 由language generation、knowledge engineering、text planning、text classification等领域演化而来。在1971年至1981年十年间,该领域的来源关键词主要是knowledge engineering,此后关键词逐渐多元化,language generation和text planning开始加入进来。




Answer machine 全局热度图


全局热度展示了该领域相关术语在所有年份上的平均热度,综合来看,Answer machine 的全局热度包含了question answering、community question answering、machine translation和Neural Network等关键词。


我们还可以看出,machine translation这一概念自二十世纪九十年代开始兴起,但是于2000年前后热度下降。这是由于information retrieval、question answering和Support Vector Machine等技术与其竞争导致的。并且question answering在2001年至2010年间呈现爆发式地增长。



Answer machine 近期热度图


上图为该领域近期热度,综合来看,近期Answer machine的热点集中在question answering、community question answering、machine translation和Neural Network等关键词,与全局热度图是相似的。


技术趋势分析这一功能可以帮助用户了解技术的来龙去脉,技术发展趋势。技术趋势的发展是科技工作者和科研管理部门必须要考虑的因素。实时的分析技术的发展趋势,了解领域动态,并且实时的分析趋势发展中各个国家的分析和对比,及时的了解学科发展状况,领跑,并跑还是跟跑。



我就想问大家有没有心动?想不想用?


网址: http://trend.aminer.cn


点击阅读原文也可以访问


活动回馈:欢迎大家在试用该功能后,在本文底部留言,给我们提出建议,学术君将给留言点赞前2名送书,书可自选(200元以内),开奖时间1月2日10:00。


[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。

分享干货


AMiner迄今为止已发布14期AI系列研究报告,您可在后台回复对应数字获取报告。

1 →  《自动驾驶研究报告》

2 →  《机器人研究报告》

3 →  《区块链研究报告》

4 →  《行为经济学研究报告》

5 →  《机器翻译研究报告》

6 →  《通信与人工智能研究报告》

7 →  《自动驾驶研究报告》前沿版

8 →  《自然语言处理研究报告》

9 →  《计算机图形学研究报告》

10 → 《超级计算机研究报告》

11  → 《3D打印研究报告》

12  → 《智能机器人研究报告》前沿版

13  → 《人脸识别研究报告》

14  → 《人工智能芯片研究报告》


推荐阅读:


斯坦福大学CS 230的深度学习秘籍—带你速览深度学习核心知识

收藏|史上最完整AI知识清单!!!涵盖神经网络、机器学习、深度学习和大数据等领域

机器学习博士带你入门|一文学会如何在Keras中开发LSTMs(附代码)

免费|麻省、谷歌、斯坦福、Yandex的10个机器学习和数据科学必修课程陪你走完2018

USNews发布全球大学CS领域2019排名:清华第一,华科大第六;国内23所高校入围TOP100

知道吗?BAT今年在KDD上作为第一单位发表了12篇文章!(内附每篇文章解读)


微信公众号菜单栏为大家设置了“论文推荐”和“优质分享”专栏,“北京讲座”移至“优质分享”专栏内,欢迎大家关注。



学术头条

发掘科技创新的原动力



您的转发就是我们最大的动力



点击阅读原文马上体验技术趋势分析

登录查看更多
4

相关内容

专知会员服务
129+阅读 · 2020年7月10日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【综述】交通流量预测,附15页论文下载
专知会员服务
131+阅读 · 2020年4月23日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
专知会员服务
103+阅读 · 2020年3月12日
事件知识图谱构建研究进展与趋势
THU数据派
99+阅读 · 2019年12月11日
清华 Aminer 发布最新2018人脸识别研究报告
专知
4+阅读 · 2018年10月11日
【学科发展报告】多媒体分析
中国自动化学会
6+阅读 · 2018年9月29日
鲍捷 | 深度解析知识图谱发展关键阶段及技术脉络
开放知识图谱
5+阅读 · 2018年8月29日
AMiner权威发布Robotics人才库
THU数据派
6+阅读 · 2018年3月26日
领域应用 | 中医临床知识图谱的构建与应用
开放知识图谱
33+阅读 · 2017年12月12日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
14+阅读 · 2019年11月26日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关资讯
事件知识图谱构建研究进展与趋势
THU数据派
99+阅读 · 2019年12月11日
清华 Aminer 发布最新2018人脸识别研究报告
专知
4+阅读 · 2018年10月11日
【学科发展报告】多媒体分析
中国自动化学会
6+阅读 · 2018年9月29日
鲍捷 | 深度解析知识图谱发展关键阶段及技术脉络
开放知识图谱
5+阅读 · 2018年8月29日
AMiner权威发布Robotics人才库
THU数据派
6+阅读 · 2018年3月26日
领域应用 | 中医临床知识图谱的构建与应用
开放知识图谱
33+阅读 · 2017年12月12日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
相关论文
Top
微信扫码咨询专知VIP会员