Benchmarks such as GLUE have helped drive advances in NLP by incentivizing the creation of more accurate models. While this leaderboard paradigm has been remarkably successful, a historical focus on performance-based evaluation has been at the expense of other qualities that the NLP community values in models, such as compactness, fairness, and energy efficiency. In this opinion paper, we study the divergence between what is incentivized by leaderboards and what is useful in practice through the lens of microeconomic theory. We frame both the leaderboard and NLP practitioners as consumers and the benefit they get from a model as its utility to them. With this framing, we formalize how leaderboards -- in their current form -- can be poor proxies for the NLP community at large. For example, a highly inefficient model would provide less utility to practitioners but not to a leaderboard, since it is a cost that only the former must bear. To allow practitioners to better estimate a model's utility to them, we advocate for more transparency on leaderboards, such as the reporting of statistics that are of practical concern (e.g., model size, energy efficiency, and inference latency).


翻译:GLUE等基准通过激励创建更准确的模式,推动了国家劳工政策的进展。虽然这一领导板模式非常成功,但以往对业绩评估的重视一直以牺牲国家劳工政策社区在模型中的价值的其他品质为代价,如紧凑性、公平性和能源效率等。在本意见文件中,我们研究了由领导板激励的因素与从微观经济理论的角度来看实际有用的因素之间的差异。我们把领导板和全国劳工政策执行者看成是消费者,他们从一个模型中获得的收益是他们的效用。有了这一框架,我们正式确定领导板 -- -- 以其目前的形式 -- -- 如何成为整个国家劳工政策社区贫穷的代用品。例如,一个效率极高的模式将减少从业人员的效用,而不是领导板,因为只有前者必须承担成本。为了让执行者更好地估计一个模型对它们的效用,我们主张在领导板上增加透明度,例如报告具有实际关注的统计资料(例如,模型大小、能源效率)等。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
40+阅读 · 2020年9月6日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
NLP is hard! 自然语言处理太难了系列
AINLP
8+阅读 · 2019年1月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | AAAI 2019等国际会议信息7条
Call4Papers
5+阅读 · 2018年9月3日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
2+阅读 · 2020年12月2日
Arxiv
110+阅读 · 2020年2月5日
The Measure of Intelligence
Arxiv
7+阅读 · 2019年11月5日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
3+阅读 · 2018年10月11日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
NLP is hard! 自然语言处理太难了系列
AINLP
8+阅读 · 2019年1月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | AAAI 2019等国际会议信息7条
Call4Papers
5+阅读 · 2018年9月3日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
2+阅读 · 2020年12月2日
Arxiv
110+阅读 · 2020年2月5日
The Measure of Intelligence
Arxiv
7+阅读 · 2019年11月5日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
3+阅读 · 2018年10月11日
Top
微信扫码咨询专知VIP会员