Despite success in many domains, neural models struggle in settings where train and test examples are drawn from different distributions. In particular, in contrast to humans, conventional sequence-to-sequence (seq2seq) models fail to generalize systematically, i.e., interpret sentences representing novel combinations of concepts (e.g., text segments) seen in training. Traditional grammar formalisms excel in such settings by implicitly encoding alignments between input and output segments, but are hard to scale and maintain. Instead of engineering a grammar, we directly model segment-to-segment alignments as discrete structured latent variables within a neural seq2seq model. To efficiently explore the large space of alignments, we introduce a reorder-first align-later framework whose central component is a neural reordering module producing {\it separable} permutations. We present an efficient dynamic programming algorithm performing exact marginal inference of separable permutations, and, thus, enabling end-to-end differentiable training of our model. The resulting seq2seq model exhibits better systematic generalization than standard models on synthetic problems and NLP tasks (i.e., semantic parsing and machine translation).


翻译:尽管在许多领域都取得了成功,但神经模型在从不同分布区块中从火车和试验实例中得出来的环境下挣扎。特别是,与人类相反,常规序列到序列(seq2saqeq)模型未能系统地加以概括,也就是说,对培训中看到的概念的新组合(例如文字部分)的句子进行解释;传统语法形式主义在这种环境中表现突出,在输入和产出部分之间暗含编码,对输入和产出部分进行校正,但很难缩放和保持。我们不是设计一个语法,而是直接将区段到组合的对齐作为神经后继2seq模型中的离散结构潜在变量来模拟。为了有效地探索大范围的校正空间,我们引入了一个重新排序-顺序第一对齐相对框架,其核心部分是一个神经重新排序模块,产生 ~it separable} perposulations。我们展示了一种高效的动态编程算法,以精确的边际推推推,从而使得我们模型的最终到可变异的训练。由此产生的后代号模型展示了更系统化的常规化和结构化任务(Segraphly some2q salmalalal) lagidudustration sal sutional subild sild sald sald salmalmalmalmalds)。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
29+阅读 · 2021年8月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
319+阅读 · 2020年11月26日
【MIT-ICML2020】图神经网络的泛化与表示的局限
专知会员服务
43+阅读 · 2020年6月23日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
自动结构变分推理,Automatic structured variational inference
专知会员服务
40+阅读 · 2020年2月10日
已删除
将门创投
5+阅读 · 2020年3月2日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
9+阅读 · 2018年5月24日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
24+阅读 · 2017年3月9日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2020年3月2日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关论文
Top
微信扫码咨询专知VIP会员