Recently, many datasets have been proposed to test the systematic generalization ability of neural networks. The companion baseline Transformers, typically trained with default hyper-parameters from standard tasks, are shown to fail dramatically. Here we demonstrate that by revisiting model configurations as basic as scaling of embeddings, early stopping, relative positional embedding, and Universal Transformer variants, we can drastically improve the performance of Transformers on systematic generalization. We report improvements on five popular datasets: SCAN, CFQ, PCFG, COGS, and Mathematics dataset. Our models improve accuracy from 50% to 85% on the PCFG productivity split, and from 35% to 81% on COGS. On SCAN, relative positional embedding largely mitigates the EOS decision problem (Newman et al., 2020), yielding 100% accuracy on the length split with a cutoff at 26. Importantly, performance differences between these models are typically invisible on the IID data split. This calls for proper generalization validation sets for developing neural networks that generalize systematically. We publicly release the code to reproduce our results.


翻译:最近,提出了许多数据集,以测试神经网络的系统普及能力。 相伴的基线变异器, 通常在标准任务中经过默认超参数训练, 显示其显著失败。 我们在这里证明, 通过重新审视嵌入规模、 早期停止、 相对位置嵌入和通用变异等基本模型配置, 我们可以大幅提高变异器系统化概括化的性能。 我们报告五个流行数据集的改进情况: SCAN、 CFQ、 PCFG、 COGS 和数学数据集。 我们的模型提高了PCFG生产率分布的精度从50%提高到85%, COGS 的精度从35%提高到81 % 。 在 SCAN, 相对定位嵌入在很大程度上缓解了 EOS 决策问题( Newman等人, 2020), 以26时的截断点来产生100%的精度, 这些模型的性能差异一般在 IID 数据分割时是看不见的。 这要求为系统化开发神经网络建立适当的普及化验证组。 我们公开发布代码以复制我们的结果。

0
下载
关闭预览

相关内容

【经典书】凸优化理论,MIT-Dimitri P. Bertsekas教授,257页pdf
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
Arxiv
0+阅读 · 2021年10月18日
Arxiv
0+阅读 · 2021年9月11日
Arxiv
19+阅读 · 2020年12月23日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关资讯
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
相关论文
Arxiv
0+阅读 · 2021年10月18日
Arxiv
0+阅读 · 2021年9月11日
Arxiv
19+阅读 · 2020年12月23日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
27+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员