2019年8月23日上午9:00,哈工大社会计算与信息检索研究中心(哈工大SCIR)邀请到了美国伊利诺伊大学厄巴纳-香槟分校(UIUC) 季姮教授为我中心全体在校师生带来学术讲座。
从非结构化文本中识别事件和实体关系等复杂的语义图结构是一项具有挑战性的信息抽取任务,而从资源不足和标注不足的语言所书写的文本中提取语义图结构无疑更加困难。在本次报告中,季姮教授介绍了跨语言跨媒体图结构对于上述任务的适用性的相关研究。相比于之前仅限于序列层面的跨语言迁移研究,季姮教授团队观察到,关系事实通常由跨多种语言和数据模态的可识别的结构化图模式来表示。通过利用符号信息(包括词性和依赖路径)和分布信息(包括类型表示和上下文表示),形成了关系相关、事件相关的语言通用和模态通用的特征。在这个基础上,季姮教授又介绍了如何使用图卷积网络将所有实体引用、事件触发词和上下文表示到这个复杂且结构化的多语言统一空间。以这种方式,将来自多种语言的所有句子和来自图像中的可视对象表示为一个共享的统一图表示。然后,从标注好的源语言中训练一个关系或事件抽取器,并将其应用于目标语言和图像。季姮教授表示,在跨语言和跨媒体关系和事件迁移方面的大量实验表明,这个方法在最多3000个训练样本上实现了与现有的SOTA监督模型相当的性能,并且显著优于从单一表示中学习的方法。
季姮,伊利诺伊大学香槟分校计算机系教授。在清华大学获得计算机语言学的学士和硕士学位,之后在纽约大学获得了计算机科学与技术的硕士和博士学位。研究兴趣主要围绕自然语言处理,特别是信息抽取和知识图谱构建。2016年和2017年,入选世界经济论坛“青年科学家”和全球未来计算理事会成员。2013年获IEEE智能系统 “AI’s 10 to Watch” 奖,2009年获NSF终身成就奖,谷歌、IBM、博世、腾讯等多家公司的教职工奖,PACLIC 2012最佳论文二等奖,ACL2019最佳演示提名,“SDM2013最佳论文”,“ICDM2013最佳论文”。自2010年以来,她参与协调了NIST TAC知识图谱构建任务,并担任NAACL-HLT 2018和CCL 2019项目委员会联席主席。同时,她还是《IEEE/ACM Transaction on Audio, Speech, and Language Processing》的副主编。
本期责任编辑:李忠阳
本期编辑:赖勇魁
“哈工大SCIR”公众号
主编:车万翔
副主编:张伟男,丁效
责任编辑:张伟男,丁效,崔一鸣,李忠阳
编辑:李家琦,赖勇魁,王若珂,李照鹏,冯梓娴,顾宇轩
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。