Systematic compositionality is an essential mechanism in human language, allowing the recombination of known parts to create novel expressions. However, existing neural models have been shown to lack this basic ability in learning symbolic structures. Motivated by the failure of a Transformer model on the SCAN compositionality challenge (Lake and Baroni, 2018), which requires parsing a command into actions, we propose two auxiliary sequence prediction tasks that track the progress of function and argument semantics, as additional training supervision. These automatically-generated sequences are more representative of the underlying compositional symbolic structures of the input data. During inference, the model jointly predicts the next action and the next tokens in the auxiliary sequences at each step. Experiments on the SCAN dataset show that our method encourages the Transformer to understand compositional structures of the command, improving its accuracy on multiple challenging splits from <= 10% to 100%. With only 418 (5%) training instances, our approach still achieves 97.8% accuracy on the MCD1 split. Therefore, we argue that compositionality can be induced in Transformers given minimal but proper guidance. We also show that a better result is achieved using less contextualized vectors as the attention's query, providing insights into architecture choices in achieving systematic compositionality. Finally, we show positive generalization results on the groundedSCAN task (Ruis et al., 2020). Our code is publicly available at: https://github.com/jiangycTarheel/compositional-auxseq


翻译:系统性的构成性是人类语言的一个基本机制, 使得已知部件的重新组合能够创建新表达式。 然而, 现有的神经模型显示缺乏学习符号结构的基本能力。 受 SCAN 构成性挑战的变换模型( Lake 和 Baroni, 2018) 失败的驱动, 需要将命令分为行动, 我们提议了两个辅助序列预测任务, 以跟踪功能的进展和参数语义, 作为额外的培训监督。 这些自动生成的序列更能代表输入数据的基本组成性象征结构 。 但是, 在推断期间, 模型共同预测了每个步骤的辅助序列中的下一个动作和下一个象征。 SCAN 数据集的实验显示, 我们的方法鼓励变换者理解命令的构成结构, 提高它从 10% 到 100% 的多重挑战性分裂的准确性。 在培训中只有 418 ( 5%), 我们的方法仍然在 MCD1 和 的 com 分割上达到97.8% 的精确性 。 因此, 我们说, 在变换时, 以最小但 正确的方向 显示 我们的配置/ 方向, 显示 实现 直观 。 我们还 显示 一个更好的结果。 在 平局 平局 上 显示 比较的结果 。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
32+阅读 · 2020年3月30日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
8+阅读 · 2017年7月21日
Arxiv
11+阅读 · 2021年10月26日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年11月14日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
8+阅读 · 2017年7月21日
相关论文
Arxiv
11+阅读 · 2021年10月26日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年11月14日
Top
微信扫码咨询专知VIP会员