特邀报告4:PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing
Abstract: 这项工作的目标是通过设计一个论文机器人来加速科学发现和生产,它的主要任务如下。
第一个任务是阅读现有的论文。科学家们现在发现很难跟的上大量的论文,例如,每年发表的生物医学论文超过50万篇,但科学家们平均每年只能阅读264篇论文(5000篇论文中有1篇)。论文机器人基于实体和关系抽取,自动读取已有的论文,构建背景知识图谱(KGs)。从科学文献中构建知识图谱通常比在一般新闻领域更具挑战性,因为它需要更广泛地获取特定领域的知识和更深入地理解复杂的上下文。为了更好地编码上下文信息和外部背景知识,我们提出了一个新的知识库驱动的树状结构长短时记忆网络(Tree-LSTM)框架和一个LSTM模型。加入两类新功能:(1)捕获上下文的依赖结构(2)实体属性(类型和类别描述)通过实体链接的外部本体。
第二个任务是自动创造新想法。Foster等人(2015)的研究表明,在生物医学和化学领域的640万篇论文中,60%以上是关于增量工作的。这激发了我们通过预测后台KGs中的新链接来自动增量创建新想法,该方法基于结合KG结构和非结构化上下文文本的新实体表示。
最后,我们进入最后一个有趣任务是,写一篇关于新想法的新论文。最后一步的目标是将新思想清晰地传达给读者,这是一件非常困难的事情;事实上,许多科学家都是糟糕的作家(Pinker, 2014)。论文机器人利用一种新颖的记忆-注意网络结构,自动写出一篇关于输入标题和预测相关实体的新论文摘要,然后根据该摘要进一步写出结论和未来的工作,最后预测未来后续论文的新标题。我们选择生物医学作为我们的目标-主要是因为有大量的可用论文。图灵测试表明,论文机器人生成的输出字符串有时会比人工编写的字符串更受欢迎;大多数论文的摘要只需要很少的领域专家的编辑就可以变得信息丰富、条理清晰。
这项工作是基于与Kevin Knight(滴滴实验室)和韩家炜(UIUC)的合作的。
Bio: Heng Ji,伊利诺伊大学香槟分校计算机科学系教授。她在清华大学获得了计算语言学的学士和硕士学位,在纽约大学获得了计算机科学的硕士和博士学位。她的研究兴趣主要集中在自然语言处理,特别是信息提取和知识库填充。2016年和2017年,她被世界经济论坛选为“青年科学家”和全球未来计算未来理事会成员。2013年获IEEE智能系统奖“AI’s 10 to Watch”奖,2009年获NSF终身成就奖,谷歌、IBM、Bosch、腾讯学院奖,PACLIC2012年度最佳论文奖,ACL2019年度最佳演示奖提名,“SDM2013年度最佳论文”,“ICDM2013年度最佳论文”。她从2010年开始协调NIST TAC知识库人口任务,并担任NAACL-HLT2018和CCL2019项目委员会联合主席。她是IEEE/ACM音频、语音和语言处理事务的副主编。