Much of recent progress in NLU was shown to be due to models' learning dataset-specific heuristics. We conduct a case study of generalization in NLI (from MNLI to the adversarially constructed HANS dataset) in a range of BERT-based architectures (adapters, Siamese Transformers, HEX debiasing), as well as with subsampling the data and increasing the model size. We report 2 successful and 3 unsuccessful strategies, all providing insights into how Transformer-based models learn to generalize.


翻译:国家实验室股最近取得的许多进展都归功于模型学习数据集的特有理论。我们开展了一项案例研究,对基于BERT的一系列建筑(适应器、暹罗变异器、HEX除偏差器)的NLI(从MNLI到对抗性构建的HANS数据集)的普及性进行了案例研究,并对数据进行了子取样,并增加了模型大小。我们报告了2个成功和3个失败的战略,都对基于变异器的模型如何学会概括化提供了深刻的洞察力。

0
下载
关闭预览

相关内容

专知会员服务
148+阅读 · 2021年9月16日
【2020新书】Python专业实践,250页pdf,Practices of the Python Pro
专知会员服务
164+阅读 · 2020年7月27日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
7+阅读 · 2018年12月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Arxiv
1+阅读 · 2021年11月29日
Arxiv
28+阅读 · 2021年9月26日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
6+阅读 · 2018年11月29日
VIP会员
相关VIP内容
专知会员服务
148+阅读 · 2021年9月16日
【2020新书】Python专业实践,250页pdf,Practices of the Python Pro
专知会员服务
164+阅读 · 2020年7月27日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
7+阅读 · 2018年12月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Top
微信扫码咨询专知VIP会员