因此作者在训练集中加入了一定的 HANS 数据,构造了 MNL + 数据集,让模型在该数据集微调,最终获得了如上图所示的结果。为了证明 HANS 对模型学到 NLI 的贡献,作者还让在 MNL + 上微调的模型在另一个数据集中做了评测,模型表现都有提升。
总结
本文总结了 BERT 提出以来一些最新的发展。 BERT 是一个优秀的预训练模型,它的预训练思想可以用来改进其他模型。BERT 可以更好,我们可以设置新的训练方式和目标,让其发挥更大的潜能。 但 BERT 并没有想象中的那么好,我们必须冷静对待 BERT 在一些任务中取得不错表现的原因 —— 究竟是因为 BERT 真正学到了对应的语义信息,还是因为数据集中数据的不平衡导致 BERT 过度使用了这样的信号。 点击阅读原文,即可下载本文内容相关 PPT。 参考文献:[1] XLNet: Generalized Autoregressive Pretraining for Language Understanding. Yang et al.CoRR abs/1906.08237.[2] A Fair Comparison Study of XLNet and BERT. XLNet Team. https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0[3] Probing Neural Network Comprehension of Natural Language Arguments. Niven et al. ACL2019.[4] Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference. McCoy el al. Corr abs/1902.01007.[5] RoBERTa: A Robustly Optimized BERT Pretraining Approach. Liu et al. CoRR abs/190.11692.[6] SpanBERT: Improving Pre-training by Representing and Predicting Spans. Joshi et al. CoRRabs/1907.10529.[7] Multi-Task Deep Neural Networks for Natural Language Understanding. Liu et al. CoRR abs/1901.11504.[8] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding. Liu et al. CoRR abs/1904.09482.