题目

预训练Transformer校准,Calibration of Pre-trained Transformers

关键字

自然语言处理,预训练语言模型,Transformer,模型校准优化

简介

现在,经过预训练的Transformer在自然语言处理中无处不在,但是尽管它们具有很高的最终任务性能,但从经验上对它们是否经过校准的了解很少。具体地说,这些模型的事后概率是否可以提供准确的经验度量,以证明该模型在给定示例上正确的可能性有多大?我们专注于BERT(Devlin等人,2019)和RoBERTa(Liu等人,2019),并在三个任务上分析其校准:自然语言推理,释义检测和常识推理。对于每项任务,我们都会考虑域内以及具有挑战性的域外设置,在这些设置中,模型面临着更多不确定的示例。我们证明:(1)开箱即用的预训练模型在域内进行校准,并且与基线相比,其域外的校准误差可低3.5倍;(2)温度缩放有效地进一步减小了域内的校准误差,并且使用标签平滑来故意增加经验不确定性有助于域外后验校正。

作者

Shrey Desai and Greg Durrett ,德克萨斯大学奥斯汀分校计算机科学系。

成为VIP会员查看完整内容
25

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
ELECTRA:超越BERT,19年最佳NLP预训练模型
新智元
6+阅读 · 2019年11月6日
XLNet团队:只要公平对比,BERT毫无还手之力
机器之心
6+阅读 · 2019年7月23日
站在BERT肩膀上的NLP新秀们:XLMs、MASS和UNILM
PaperWeekly
16+阅读 · 2019年6月6日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
6+阅读 · 2019年3月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关资讯
ELECTRA:超越BERT,19年最佳NLP预训练模型
新智元
6+阅读 · 2019年11月6日
XLNet团队:只要公平对比,BERT毫无还手之力
机器之心
6+阅读 · 2019年7月23日
站在BERT肩膀上的NLP新秀们:XLMs、MASS和UNILM
PaperWeekly
16+阅读 · 2019年6月6日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
已删除
AI科技评论
4+阅读 · 2018年8月12日
微信扫码咨询专知VIP会员