我们将考虑流行的神经序列处理模型(如RNN和Transformer)与形式化模型(如自动机及其变体)之间的关系。特别地,我们将讨论几种RNN的提取方法,以及通过自动机变体来理解的各种RNN体系结构之间的差异。然后我们将考虑更现代的Transformer。特别是,我们将展示它如何(不!)与现有的正式类相关,并以编程语言的形式提出另一种抽象。

https://icgi2020.lis-lab.fr/speakers/#Guillaume

成为VIP会员查看完整内容
0
34

相关内容

摘要

Transformers 在自然语言处理、计算机视觉和音频处理等许多人工智能领域都取得了巨大的成功。因此,自然会引起学术界和工业界研究人员的极大兴趣。到目前为止,各种各样的Transformer变种(即X-formers)已经被提出,但是,关于这些Transformer器变种的系统和全面的文献综述仍然缺乏。在这项综述中,我们提供了一个全面的Transformer综述。我们首先简单介绍了普通的Transformer,然后提出了一个x-former的新分类。接下来,我们将从三个方面介绍不同的x -former架构修改,预训练和应用。最后,展望了未来的研究方向。

https://www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0

引言

Transformer[136]是一种出色的深度学习模型,被广泛应用于自然语言处理(NLP)、计算机视觉(CV)和语音处理等各个领域。Transformer最初是作为一种用于机器翻译的序列到序列模型提出的[129]。后来的工作表明,基于Transformer的预训练模型(PTMs)[100]可以在各种任务上实现最先进的性能。因此,Transformer已经成为NLP的首选架构,特别是对于PTMs。除了语言相关的应用,Transformer也被应用于CV[13, 33, 94],音频处理[15,31,41],甚至其他学科,如化学[113]和生命科学[109]。

由于成功,各种各样的Transformer 变种(即x -former)在过去几年里被提出。这些X-formers从不同的角度改进了vanilla Transformer。

(1) 模型的效率。应用Transformer的一个关键挑战是它在处理长序列时效率低下,这主要是由于自注意力模块的计算和存储复杂性。改进方法包括轻量级注意力(例如稀疏注意变体)和分治法(例如循环和分层机制)。

(2) 模型泛化。由于Transformer是一种灵活的体系结构,并且很少对输入数据的结构偏差进行假设,因此很难对小规模数据进行训练。改进方法包括引入结构偏差或正则化、对大规模无标记数据进行预处理等。

(3) 模型的适应。该工作旨在使Transformer适应特定的下游任务和应用程序。

在这个综述中,我们的目的是提供一个Transformer及其变体的全面综述。虽然我们可以根据上面提到的观点来组织x-former,但许多现有的x前辈可能会解决一个或几个问题。例如,稀疏注意变量不仅降低了计算复杂度,而且在输入数据上引入了结构先验,缓解了小数据集上的过拟合问题。因此,将现有的各种X-formers进行分类,并根据它们改进Transformer的方式提出新的分类方法会更有条理: 架构修改、预训练和应用。考虑到本次综述的受众可能来自不同的领域,我们主要关注于一般的架构变体,而只是简单地讨论了预训练和应用的具体变体。

到目前为止,基于普通Transformer的各种模型已经从三个角度被提出:架构修改的类型、预训练的方法和应用。图2给出了Transformer变种的分类说明。

尽管“x-formers”已经证明了他们在各种任务上的能力,但挑战仍然存在。除了目前关注的问题(如效率和泛化),Transformer的进一步改进可能在以下几个方向:

(1) 理论分析。Transformer的体系结构已被证明能够支持具有足够参数的大规模训练数据集。许多工作表明,Transformer比CNN和RNN有更大的容量,因此有能力处理大量的训练数据。当Transformer在足够的数据上进行训练时,它通常比CNN或RNN有更好的性能。一个直观的解释是,Transformer对数据结构没有什么预先假设,因此比CNN和RNN更灵活。然而,理论原因尚不明确,我们需要对Transformer能力进行一些理论分析。

(2) 注意力机制之外的全局交互机制更加完善。Transformer的一个主要优点是使用注意力机制来建模输入数据中节点之间的全局依赖关系。然而,许多研究表明,对大多数节点来说,完全注意力是不必要的。在某种程度上,不可区分地计算所有节点的注意力是低效的。因此,在有效地建模全局交互方面仍有很大的改进空间。一方面,自注意力模块可以看作是一个具有动态连接权的全连接神经网络,通过动态路由聚合非局部信息; 因此,其他动态路由机制是值得探索的替代方法。另一方面,全局交互也可以通过其他类型的神经网络来建模,比如记忆增强模型。

(3) 多模态数据统一框架。在许多应用场景中,集成多模态数据对于提高任务性能是非常有用和必要的。此外,一般的人工智能还需要能够捕获跨不同模式的语义关系。由于Transformer在文本、图像、视频和音频方面取得了巨大的成功,我们有机会建立一个统一的框架,更好地捕捉多模态数据之间的内在联系。但是,在设计中对模式内和模式间的注意还有待改进。

成为VIP会员查看完整内容
0
88

自然语言数据的一个重要子集包括跨越数千个token的文档。处理这样长的序列的能力对于许多NLP任务是至关重要的,包括文档分类、摘要、多跳和开放域问答,以及文档级或多文档关系提取和引用解析。然而,将最先进的模型扩展到较长的序列是一个挑战,因为许多模型都是为较短的序列设计的。一个值得注意的例子是Transformer模型,它在序列长度上有二次计算代价,这使得它们对于长序列任务的代价非常昂贵。这反映在许多广泛使用的模型中,如RoBERTa和BERT,其中序列长度被限制为只有512个tokens。在本教程中,我们将向感兴趣的NLP研究人员介绍最新和正在进行的文档级表示学习技术。此外,我们将讨论新的研究机会,以解决该领域现有的挑战。我们将首先概述已建立的长序列自然语言处理技术,包括层次、基于图和基于检索的方法。然后,我们将重点介绍最近的长序列转换器方法,它们如何相互比较,以及它们如何应用于NLP任务(参见Tay等人(2020)最近的综述)。我们还将讨论处理长序列的关键的各种存储器节省方法。在本教程中,我们将使用分类、问答和信息提取作为激励任务。我们还将有一个专注于总结的实际编码练习。

成为VIP会员查看完整内容
0
42

尽管在深度学习方面取得了相当大的进步,但人工智能仍然是狭隘和脆弱的。一个基本的限制是它缺乏常识智能: 对人类来说微不足道,但对机器来说却异常地困难。在这次演讲中,我将讨论关于常识性人工智能的真理——符号知识和神经知识的混合,知识和推理之间的连续体,推理和语言生成之间的相互作用。

成为VIP会员查看完整内容
0
48

近年来,在大量原始文本上预先训练的大型语言模型彻底改变了自然语言处理。现有的方法,基于因果或隐藏的语言模型的变化,现在为每一个NLP任务提供了事实上的方法。在这个演讲中,我将讨论最近在语言模型预训练方面的工作,从ELMo、GPT和BERT到更近期的模型。我的目标是对总体趋势进行广泛的报道,但提供更多关于我们最近在Facebook AI和华盛顿大学开发的模型的细节。其中特别包括序列到序列模型的预训练方法,如BART、mBART和MARGE,它们提供了一些迄今为止最普遍适用的方法。

成为VIP会员查看完整内容
0
48

元学习可以让机器学习新的算法。这是一个新兴且快速发展的机器学习研究领域,对所有人工智能研究都有影响。最近的成功案例包括自动模型发现、少枪学习、多任务学习、元强化学习,以及教机器阅读、学习和推理。正如人类不会从头开始学习新任务,而是利用之前所学的知识一样,元学习是高效和稳健学习的关键。本教程将介绍该领域及其应用的重要数学基础,包括这个领域中当前技术水平的关键方法,该领域对众多AAAI参与者来说越来越重要。

https://sites.google.com/mit.edu/aaai2021metalearningtutorial

内容目录:

  • 元学习导论
  • 多任务学习
  • 元学习
  • 自动机器学习
  • 应用
成为VIP会员查看完整内容
0
62

在这节课中,我们将讨论GNN的可迁移性,也就是说能够在保证性能的情况下迁移机器学习模型。首先,我们深入研究了谱域和节点域的graphon滤波器的收敛性。稍后,我们将以生成模型的形式讨论graphon过滤器。我们将继续介绍graphon 神经网络(WNNs),这是解释为什么graphon 神经网络可以在从graphon 获得的确定性图之间转换的关键元素。我们最后证明GNN继承了图滤波器的可迁移性。

成为VIP会员查看完整内容
0
17

注意力是一种在广泛的神经结构中使用的越来越流行的机制。由于这一领域的快速发展,仍然缺乏对注意力的系统概述。在本文中,我们定义了用于自然语言处理的注意力体系结构的统一模型,重点介绍了用于文本数据的向量表示的体系结构。我们讨论了以往工作的不同方面,注意力机制的可能用途,并描述了该领域的主要研究工作和公开挑战。

https://web.eecs.umich.edu/~justincj/slides/eecs498/FA2020/598_FA2020_lecture13.pdf

成为VIP会员查看完整内容
0
150

现代机器学习有两个明显的特点:它可以非常强大,也可以非常脆弱。前者不需要赘述。后者指的是现代机器学习算法的性能敏感地依赖于超参数的选择。这个演讲集中在机器学习的连续公式是“适定的”。我们将机器学习和相关的优化过程描述为表现良好的变分问题和类偏微分问题,并证明一些最流行的现代机器学习算法可以作为这些连续问题的离散化恢复。实验结果表明,该方法对不同的超参数选择具有更强的鲁棒性。我们还讨论了如何在这个框架下开发新的算法。

成为VIP会员查看完整内容
0
19

【导读】DeepMind开设了一系列深度学习课程。本次课讲述了深度学习计算机视觉。

继上一讲之后,DeepMind研究科学家Viorica Patraucean介绍了图像分类之外的经典计算机视觉任务(目标检测、语义分割、光流估计),并描述了每种任务的最新模型以及标准基准。她讨论了视频处理任务的类似模型,如动作识别、跟踪和相关挑战。她特别提到了最近提高视频处理效率的工作,包括使用强化学习的元素。接下来,她介绍了单模态和多模态(vision+audio, visio+language)自监督学习的各种设置,在这些设置中,大规模学习是有益的。最后,Viorica讨论了视觉中的开放问题,以及计算机视觉研究在构建智能代理这一更广泛目标中的作用。

成为VIP会员查看完整内容
0
95

论文题目

神经序列模型的合成语义解释:EXPLAINING COMPOSITIONAL SEMANTICS FOR NEURAL SEQUENCE MODELS

论文摘要

深层神经网络在处理自然语言中复杂的语义方面取得了令人印象深刻的性能,但大多被当作黑盒处理。为了说明该模型如何处理词和短语的组合语义,我们研究了层次解释问题。我们强调的关键挑战是计算单个单词和短语的非加性和上下文无关的重要性。我们发现,在层次解释方面的一些前期工作,例如上下文分解,在数学上不满足期望的性质,导致不同模型中的解释质量不一致。在本文中,我们提出了一种形式化的方法来量化每个单词或短语对生成分层解释的重要性。我们根据我们的公式修改了上下文分解算法,并提出了一种具有竞争性能的模型无关解释算法。在LSTM模型和微调的BERT变换器模型上进行的人工评估和自动度量评估都表明,我们的算法在层次扩展上的性能大大优于以前的工作。我们展示了我们的算法有助于解释语义的组成性,提取分类规则,提高模型的可信度。

成为VIP会员查看完整内容
0
4
小贴士
相关论文
Yue Qiu,Shintaro Yamamoto,Kodai Nakashima,Ryota Suzuki,Kenji Iwata,Hirokatsu Kataoka,Yutaka Satoh
0+阅读 · 9月14日
Xiang Wang,Shiwei Zhang,Zhiwu Qing,Yuanjie Shao,Zhengrong Zuo,Changxin Gao,Nong Sang
5+阅读 · 6月21日
Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu
41+阅读 · 6月8日
UP-DETR: Unsupervised Pre-training for Object Detection with Transformers
Zhigang Dai,Bolun Cai,Yugeng Lin,Junying Chen
13+阅读 · 2020年11月18日
Do RNN and LSTM have Long Memory?
Jingyu Zhao,Feiqing Huang,Jia Lv,Yanjie Duan,Zhen Qin,Guodong Li,Guangjian Tian
16+阅读 · 2020年6月10日
Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova
10+阅读 · 2019年5月24日
The Evolved Transformer
David R. So,Chen Liang,Quoc V. Le
5+阅读 · 2019年1月30日
Neural Speech Synthesis with Transformer Network
Naihan Li,Shujie Liu,Yanqing Liu,Sheng Zhao,Ming Liu,Ming Zhou
5+阅读 · 2019年1月30日
Naihan Li,Shujie Liu,Yanqing Liu,Sheng Zhao,Ming Liu,Ming Zhou
3+阅读 · 2018年11月13日
Shiyu Zhou,Linhao Dong,Shuang Xu,Bo Xu
4+阅读 · 2018年6月4日
Top