吴奖人物丨研发以研究者为中心的学术社会网络分析与挖掘系统——访清华大学副教授、ArnetMiner创始人唐杰

2019 年 2 月 3 日 中国人工智能学会

人工智能人物访谈篇之十四

唐杰教授主持研发了研究者社会网络挖掘系统AMiner(ArnetMiner),收录1.36亿科研人员、2.31亿科技文献,吸引了220个国家/地区800多万独立IP访问。研究成果在与腾讯、阿里巴巴、华为、IBM、Google、Nokia、搜狐等多个国际合作和企业合作项目中得到推广应用。在高质量语义内容生成与隐含关联关系挖掘等核心技术方面达到了国际领先水平,平台年访问量达到1500万,核心技术及服务应用于科技部、中国工程院等20余家企事业单位。


获奖人物介绍



唐杰,清华大学计算机系长聘副教授、计算机系副主任、清华-工程院知识智能联合实验室主任,获杰青。研究兴趣包括:社会网络分析、数据挖掘、机器学习和知识图谱。发表论文200余篇,引用10000多次(个人h-指数55)。主持研发了研究者社会网络挖掘系统AMiner(ArnetMiner),收录1.36亿科研人员、2.31亿科技文献,吸引了220个国家/地区800多万独立IP访问。曾担任国际期刊ACM TKDD的执行主编和国际会议CIKM’16、WSDM’15的程序委员会主席、KDD’18大会副主席以及IEEE TKDE、ACM TIST、IEEE TBD等期刊编委编委。作为第一完成人获北京市科技进步一等奖、第三届吴文俊人工智能科学技术进步奖一等奖、KDD杰出贡献奖。


唐杰教授首次提出基于隐含话题的异构社会网络建模和社会网络影响力分析模型;针对Web信息的不同特点,提出多种有效的语义标注方法;提出的基于贝叶斯决策的多策略本体映射模型,在国际评测OAEI中获得多项第一的优秀成绩。


唐杰教授是国家863计划、国家自然科学基金等项目负责人。在Web网络挖掘和语义Web及其相关领域建立了很好的学术影响。研发的学术搜索系统ArnetMiner的系统用户已覆盖220个国家和地区。研究成果还在与腾讯、阿里巴巴、华为、IBM、Google、Nokia、搜狐的多个国际合作和企业合作项目中得到推广应用。


人工智能人物:您为何想要做AMiner(ArnetMiner)系统?


唐杰:科技创新能力是国家核心竞争力。科技情报大数据挖掘是从海量科技信息资源中挖掘知识产生、传播和产业化的深层规律,对于加速科技创新、建设世界科技强国具有重要意义。在过去10多年中,谷歌学术、WOS数据库、Scopus数据库等学术资源服务在辅助科研人员进行科学研究,提高科技产出方面发挥了重要作用。我们在2006年启动了AMiner(原名ArnetMiner)系统平台的研发工作,旨在从海量学术资源中挖掘出一些有价值的信息,为科研人员提供帮助。当时的研究工作在学术界获得了一定的影响力,发表在2008年KDD上的论文现在有1000多次引用,在该会近10年所有论文中(约1600篇)排名前5,这进一步激发了我们研究AMiner的热情。近年,大数据和人工智能的兴起彻底改变了科技情报挖掘的内涵与应用方式,传统以文献服务和知识服务为标志的情报分析已经远远不能满足“互联网+”环境下智能型情报分析的需求,亟需从基础理论到核心技术的自主创新。依靠团队长期在数据、理论、技术及平台方面的积累,在国家863、973、国家自然科学基金,以及华为、搜狗、腾讯、阿里等多个合作项目的支持下,AMiner研究工作取得了长足的进步,在高质量语义内容生成与隐含关联关系挖掘等核心技术方面达到了国际领先水平,平台年访问量达到1500万,核心技术及服务应用于科技部、中国工程院等20余家企事业单位。未来我们将以更饱满的热情,更开放的态度,与领域内的学者及企事业单位加深合作,争取把AMiner建成为世界一流品牌,为学术界和企业界提供更好更有价值的服务。



人工智能人物:筹备做出AMiner系统花了多长时间?


唐杰:我在2006年临近博士毕业的时候有了做AMiner的想法,当时和两个研究生同学:张静(目前人大讲师)和洪铭才(目前深圳工作)讨论了一下,大家都觉得很好,于是就做了起来,大约半年后系统第一个版本开始上线运行,没想到在国际上反响非常好,于是就一直做了下来。AMiner至今主要经历了三个阶段:


(1)奠基阶段(2006.01-2008.12):研究框架形成和应用原型系统开发。


这一阶段对语义内容生成中的语义标注和语义集成方法进行了研究,提出基于动态策略选择的语义集成方法和多维依赖关系的语义标注方法,实现了科技情报大数据挖掘与服务系统AMiner的第一个版本并上线运行。


(2)夯实阶段(2009.01-2011.01):关键技术深入研究和应用系统夯实。


对框架中关键技术提出系统深入的理论支持和方法研究。明确提出以学者为中心的语义检索和智能服务模型,发明了基于话题的网络影响力分析模型,在学术界得到广泛关注。


(3)拓展阶段(2011.01-今):关键技术的拓展研究和应用推广。


拓展科技情报挖掘平台的应用范围,新增包括专家推荐、合作推荐、技术趋势预测等功能。这一阶段AMiner系统建立了广泛的学术影响, 吸引了220个国家和地区800多万独立IP的访问,系统年度访问量超过1500万,数据下载超过230万次;与微软学术(Bing),ACM、Elsevier、AI2和ND等国际著名数据服务商或学术机构建立了数据与技术共享;应用于国家自然基金委、中国工程院、搜狗、点通、华为、腾讯等20余家企事业单位以及20多个重要国际会议(包括:KDD’10-’12, PKDD’11, WSDM’11, ISWC’10等)。


人工智能人物:您能具体介绍一下AMiner系统的功能和应用吗?


唐杰:AMiner平台以科研人员、科技文献、学术活动三大类数据为基础,构建三者之间的关联关系,深入分析挖掘,面向全球科研机构及相关工作人员,提供学者、论文文献等学术信息资源检索,以及如学术评价、专家搜索/推荐、学者地图、学者关系网络分析、研究兴趣发展变化分析、技术发展趋势分析等专业知识服务。典型功能服务包括:


学者画像及分析挖掘


学者画像及分析挖掘是AMiner平台的核心功能服务之一。其特色在于除了提供专家学者如姓名、单位、地址、联系方式、个人简介、教育经历等个人基本信息之外,还利用团队多年的命名排岐相关技术基础,建立了较为完全的学者-论文映射关系,提供学者学术评价、研究兴趣发展趋势分析、学者合作者关系网络等分析挖掘信息,同时支持用户交互,通过众包方式丰富专家学者的相关信息。学者档案信息对公众开放,注册用户可免费查询专家档案信息。



专家学者搜索及推荐


AMiner平台中专家学者搜索界面如图2所示,搜索支持H-index、地域、语种、性别等多种过滤条件,搜索结果可以按相关性、H-index、活跃度等多种方式排序,同时还支持利用知识图谱进行扩展搜索、搜索关键词自动提示、相似专家推荐等多种搜索方式,以满足不同的用户需求。AMiner平台搜索功能免费对公众开放,同时基于系统平台的学者库资源,提供面向机构的专家学者推荐服务,可以根据实际应用需求推荐合适的专家学者。



技术发展趋势分析


技术发展趋势分析是当前的一个研究热点。项目团队基于AMiner多年积累的数据资源及技术基础,能自动分析挖掘不同技术领域的发展趋势,标出分支技术及技术发展历程中的重要人物及事件(代表论文)。同时支持发现领域技术热点及进行技术前沿分析等知识服务。下图展示了AMiner对人工智能技术的技术发展趋势分析。



全球学者分布地图


全球学者分布地图直观地展示特定技术领域专家学者在全球的分布情况,可以快速定位技术研究热点地区及区域内的权威专家,展示特定区域的专家统计分析情况,方便进行不同区域不同专家之间的对比分析。下图展示了“机器学习”领域全球学者的分布情况。



全球学者迁徙图


全球学者迁徙图直观的展示特定技术领域专家学者在全球随时间的分布变化情况,可以快速定位不同历史时期的技术研究热点地区及代表性专家。同时也支持对特定专家的迁徙情况进行专门分析展示,以及某特定时期内全球热点区域的统计分析等。下图展示了2016年“机器学习”领域全球最有影响力学者在2007年的迁徙图。



开放平台


AMiner一直以来都非常强调开放共享。提供平台学者及论文等数据的访问API接口,可以直接调用查询平台相关学术数据。同时提供学术资源下载,开放共享学术数据超过2亿条,累计数据下载超过230万次。近期联合微软学术发布了开放学术图谱,提供超过3亿的论文文献原数据下载。



人工智能人物:您的研究成果取得了哪些有较大影响的关键技术突破,对人工智能技术应用有何实际推动?


唐杰:互联网环境下科技信息资源具有规模大、分布及异构等特点,通用搜索技术在科技情报信息挖掘方面的服务能力有限,亟待探究新的技术途径。团队对此进行了系统性的技术攻关,取得了部分技术创新成果:


(1)高质量语义内容生成关键技术。首次提出动态策略选择的语义集成方法和多维依赖关系的语义标注方法,将语义内容生成的精度提高10%,在国际竞赛本体映射OAEI上6年取得13项子任务第一,建立了亿级节点规模的科技知识图谱,被多名国际专家认为是“top match system”。


(2)面向异构科技情报网络的深度挖掘方法。率先提出基于话题的影响力模型,在腾讯在线社交网络系统中利用挖掘得到的关联语义和影响力实现了高达196%的推荐精度提升和5-10%的推荐收入提升。发表在KDD 2009的论文引用次数在该会当年至今发表的所有论文(约1500篇)中排名第8。


(3)以知识和学者为中心的语义搜索和智能服务关键技术。针对知识网络中异构对象排序难的问题,提出对科技信息网络中学者、学术活动和知识概念进行隐含语义建模的概率图模型,成果应用于搜狗公司实现基于社交关系的搜索等核心产品,取得显著经济效益。


项目在2017年中国电子学会组织的成果鉴定中,被三位院士领衔的专家团队鉴定为“对促进科技创新具有重要意义,在高质量语义内容生成及隐含关联关系挖掘方面达到国际领先水平”。获得了2017年北京市科技进步一等奖及第三届吴文俊人工智能科学技术进步奖一等奖。


人工智能人物:您对人工智能技术研究和产业应用有何见解?


唐杰:人工智能是时下学术界和产业界非常热门的一个话题,人工智能技术已经从实验室开始逐步走向产业化,全球科技企业纷纷开始向AI领域进行战略部署。从智能家居、智能汽车到机器人保姆、AlphaGo,AI越来越为大众所熟知,产业化进程也在不断加快。电脑运算能力的提升、辨识技术的突破以及大数据的广泛应用,又使得人工智能迎来新一波的发展浪潮,全球性的AI迅速发展趋势不可逆转。


AI的快速发展给人们带来了便利的同时,也是带来了一定的潜在性危害的。去年比较著名的AlphaGo 3:0战胜柯洁的事情也开始让更多人去思考AI的危害性。科技“狂人”马斯克就曾警告说“具有超级智慧的人工智能产品各方面能力远超人类,那么人类在强大的人工智能面前很可能会沦为“家猫”。所以我们在对人工智能充满期待的同时还是要保持高度的警惕。


针对人工智能产业链,主要有三个核心:基础技术、人工智能技术及人工智能应用。在基础技术方面,大数据管理和云计算技术得到广泛的运用,为人工智能技术的实现和人工智能应用的落地提供基础的后台保障,是一切人工智能应用得以实现的大前提;人工智能技术,目前主要聚焦在人机交互、计算机视觉、深度学习领域;人工智能应用聚焦在智能医疗、机器人、智能家居、汽车电子等领域,当前正处于由专业应用向通用应用过度的发展阶段。


人工智能技术还有很长的路要走,无论在技术研究,还是产业应用,只有不断地将新技术与产业结合,才能促进AI的成长,但是一切能够改变生活的科学技术都值得期待!


人工智能人物:能介绍一下您的研究团队吗?


唐杰:团队目前有我带的20余位硕博士研究生及部分本科生负责相关算法研究及一些算法原型研发,有20余位工程师专门负责系统平台的功能服务研发及运行维护,一个数据团队专门负责相关数据加工及审核工作,同时还有很多相关领域的合作老师及企业共同为AMiner的发展贡献力量。AMiner的研究工作得到了学校和计算系的大力支持,科技情报大数据挖掘已确定为计算机系人工智能的三大应用方向之一,建立了几个的合作研究中心专门负责相关研究工作:


清华大学-中国工程院 “知识智能”联合研究中心:旨在以科技人才、学术活动、科技文献等科技资源为数据基础,多学科交叉,研究科技大数据处理中面临的理论和关键技术问题。联合中心指导委员会主任和副主任分别由中国工程院周济院长和陈左宁副院长担任,管委会主任由吴建平院士担任,联合中心主任由唐杰副教授担任。


清华大学数据研究院科技大数据研究中心:旨在以学术、专利、科技新闻等数据为基础,从事计算机科学、传播学、社会学和经济学等多学科交叉研究。研究中心主任和执行主任由计算机系李涓子教授和唐杰副教授担任,首席科学家由长江学者冯铃教授担任。


清华大学计算机系知识工程实验室:依托清华大学计算机系知识工程实验室,在数据与知识工程方面,该课题组多年致力于网络环境下知识处理研究,与国内外建立广泛的合作与交流,建立了和IBM、Google多项国际合作研究项目,以及新华社和国家环保总局的部委级合作。


清华大学信息科技与技术国家实验室:AMiner的团队成员还隶属于清华信息科学与技术国家实验室,这是全国5个国家实验室之一,也是唯一一个信息学科的国家实验室,依托清华大学筹建。


人工智能人物:您的获奖项目成果有什么最新进展?


唐杰:获奖成果AMiner近几年的主要进展是在知识图谱和智能交互两个方面:在知识图谱方面,我们与微软学术(Bing),ACM、Elsevier、AI2和ND等国际著名公司和学术机构一起建立了包含3亿节点的开放学术图谱;在智能交互方面,新增包括专家推荐、合作推荐、技术趋势预测、自动生成技术报告等智能服务功能,并应用于科技部、国家自然基金委、中国工程院、搜狗、点通、华为、腾讯等20余家企事业单。研究利用人工智能与机器学习技术生成技术报告,目前已以人机结合的方式编写了人工智能系列报告14篇。最后,在获奖和人才方面新的成果还获得了2017年北京市科学技术奖一等奖及第45届日内瓦国际发明展银奖,我本人也获得自然基金委2018年人工智能方向的杰出青年基金项目。



获奖项目成果


该项目“研究者社会网络搜索与挖掘系统(ArnetMiner)”是互联网面向知识服务重要发展方向上的一个重要应用基础研究课题。项目融合数据挖掘、社会网络分析和语义搜索等相关技术,通过抽取和集成研究人员语义信息,建立相互之间的社会网络,提供有效的语义搜索与挖掘服务,包括个人信息搜索、研究兴趣分析、学术能力评价、专家发现、审稿人推荐等。项目帮助用户及时了解和掌握科技动态,加快科技成果应用,提高科技生产力,将学术成果真正有效地服务于社会。


获奖者寄语


唐杰:人工智能正处在历史最好的时期,让我们一起投入到探索人工智能机理、核心算法以及知识工程的潮流中。



登录查看更多
1

相关内容

唐杰,清华大学计算机系教授、系副主任,获杰青。研究兴趣包括:数据挖掘、社交网络和知识图谱。发表论文200余篇,引用10000余次(个人h-指数57)。主持研发了研究者社会网络挖掘系统AMiner,吸引了220个国家/地区1000多万独立IP访问。曾担任国际期刊ACM TKDD的执行主编和国际会议CIKM’16、WSDM’15的PC Chair、KDD’18大会副主席。作为第1完成人获北京市科技进步一等奖、中国人工智能学会科技进步一等奖、KDD杰出贡献奖。
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
清华大学唐杰老师:用于理解、推理和决策的认知图计算
专知会员服务
119+阅读 · 2019年11月30日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
预告 | CSIG图像图形学科前沿讲习班:图神经网络
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
CAAI-AIDL 第六期《自然语言处理》丨 京东何晓冬,清华大学唐杰
中国人工智能学会
10+阅读 · 2018年12月16日
公开课 | 知识图谱关键技术与应用案例
AI100
7+阅读 · 2018年8月5日
清华大学刘知远:在 NLP 领域「做事」兼「发声」
AI科技评论
8+阅读 · 2017年11月18日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
11+阅读 · 2018年7月31日
Arxiv
4+阅读 · 2018年2月19日
VIP会员
相关VIP内容
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
清华大学唐杰老师:用于理解、推理和决策的认知图计算
专知会员服务
119+阅读 · 2019年11月30日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
相关论文
Top
微信扫码咨询专知VIP会员