【导读】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美国纽约举办。迁移学习近年来受到了非常大的关注,今年AAAI也有很多相关论文,这场Tutorial全面回顾可迁移表示学习方法的最新发展,重点介绍文本、多关系和多媒体数据的可迁移表示学习方法。除了介绍域内嵌入学习方法外,还讨论各种半监督、弱监督、多视图和自监督学习技术来连接多个域特定的嵌入表示,是一个非常全面的迁移表示学习总结,讲者最后也介绍了其未来发展趋势,值得研究者关注和收藏。
迁移表示学习最新进展
Recent Advances in Transferable Representation Learning
地址:
https://cogcomp.seas.upenn.edu/page/tutorial.202002/
本教程针对有兴趣将深度学习技术应用于跨域决策任务的AI研究人员和从业人员。这些任务包括涉及多语言和跨语言自然语言处理,特定领域知识以及不同数据模式的任务。本教程将为听众提供以下方面的整体观点:(i)针对未标记的文本,多关系和多媒体数据的多种表示学习方法;(ii)在有限的监督下跨多种表示对齐和迁移知识的技术;以及(iii)在自然语言理解,知识库和计算生物学中使用这些技术的大量AI应用程序。我们将通过概述该领域未来的研究方向来结束本教程。观众不需要有特定的背景知识。
概述
许多人工智能任务需要跨域决策。例如,许多NLP任务涉及跨多种语言的预测,其中可以将不同的语言视为不同的域;在人工智能辅助的生物医学研究中,药物副作用的预测常常与蛋白质和有机体相互作用的建模并行进行。为了支持机器学习模型来解决这种跨域任务,必须提取不同域中数据组件的特征和关系,并在统一的表示方案中捕获它们之间的关联。为了满足这一需求,表示学习的最新进展往往涉及到将不同域的未标记数据映射到共享嵌入空间。这样,跨域的知识迁移可以通过向量搭配或变换来实现。这种可迁移的表现形式在涉及跨域决策的一系列人工智能应用中取得了成功。然而,这一领域的前沿研究面临两大挑战。一是在学习资源很少的情况下如何有效地从特定领域中提取特性。另一个是在最少的监督下精确地对齐和传递知识,因为连接不同域的对齐信息常常是不充分和有噪声的。
在本教程中,我们将全面回顾可迁移表示学习方法的最新发展,重点介绍文本、多关系和多媒体数据的可迁移表示学习方法。除了介绍域内嵌入学习方法外,我们还将讨论各种半监督、弱监督、多视图和自监督学习技术来连接多个域特定的嵌入表示。我们还将比较域内嵌入算法和跨域对齐算法的改进和联合学习过程。此外,我们将讨论如何利用获得的可迁移表征来解决低资源和无标签的学习任务。参会者将了解本主题的最新趋势和挑战,了解代表性工具和学习资源以获取即用型模型,以及相关的模型和技术如何有益于现实世界AI应用程序。
讲者介绍
Muhao Chen目前是美国宾夕法尼亚大学研究生院博士后。他于2019年在加州大学洛杉矶分校获得了计算机科学博士学位。Muhao从事过机器学习和NLP方面的各种课题。他最近的研究也将相关技术应用于计算生物学。更多信息请访问http://muhaochen.github.io。
Kai-Wei Chang是加州大学洛杉矶分校计算机科学系的助理教授。他的研究兴趣包括为大型复杂数据设计鲁棒的机器学习方法,以及为社会公益应用程序构建语言处理模型。其他信息请访问http://kwchang.net。
Dan Roth是宾夕法尼亚大学CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然语言理解建模、机器学习和推理方面的重大概念和理论进展而被认可。更多信息可以参考:http://www.cis.upenn.edu/˜danroth /.
链接:
https://cogcomp.seas.upenn.edu/page/tutorial.202002/
目录与内容
第一部分: 介绍和动机
我们将定义主要的研究问题,并通过介绍几个需要联合表征学习的人工智能应用来激发主题。
第二部分:嵌入式的Retrofitting、联合学习和自监督对齐学习
我们将首先提供在不同领域中嵌入结构化和非结构化数据的学习方法的一般概述。在此基础上,我们将讨论如何使用retrofitting或联合学习方法将特定领域的嵌入空间关联起来。此外,我们还将涵盖最近的自监督学习过程的情况下,对齐信息的知识转移不直接可用的情况。
第三部分:多语言自然语言处理的可迁移表征学习
我们将讨论如何将可迁移的表示合并到各种多语言NLP任务中。以依赖解析和实体链接系统为例,我们将演示知识迁移如何使在高资源语言上训练的NLP模型转移到低资源语言任务。
第四部分:多关系数据的可迁移表示学习
我们将介绍在多个任务中应用多关系数据的联合表示学习的最新研究成果。从方法学的角度,我们将讨论如何根据不同模式下不同实体配置文件的多视图学习来对齐实体,以及如何部署基于排名的提升技术来集成来自多个可能不一致的视图的知识。从应用的角度,我们将研究利用可迁移的多关系嵌入来解决知识库集成、实体分型、蛋白质-蛋白质相互作用预测和多药副作用识别的代表性系统。
第五部分:结论与未来研究方向
可迁移表征学习对数据驱动和知识驱动的人工智能任务具有广泛的影响。我们将通过介绍在设计具有复杂关系属性和不同模式的数据的可迁移表示学习模型方面的一些挑战和潜在的研究主题来结束本教程。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“TRL2020” 就可以获取《AAAI2020最新「迁移表示学习最新进展」247页ppt》专知下载链接