Large-scale, pre-trained language models (LMs) have achieved human-level performance on a breadth of language understanding tasks. However, evaluations only based on end task performance shed little light on machines' true ability in language understanding and reasoning. In this paper, we highlight the importance of evaluating the underlying reasoning process in addition to end performance. Toward this goal, we introduce Tiered Reasoning for Intuitive Physics (TRIP), a novel commonsense reasoning dataset with dense annotations that enable multi-tiered evaluation of machines' reasoning process. Our empirical results show that while large LMs can achieve high end performance, they struggle to support their predictions with valid supporting evidence. The TRIP dataset and our baseline results will motivate verifiable evaluation of commonsense reasoning and facilitate future research toward developing better language understanding and reasoning models.


翻译:大规模、预先培训的语言模型(LMS)在广泛的语言理解任务方面实现了人文层面的成绩,然而,只根据任务完成后的表现进行评估,并不能说明机器在语言理解和推理方面的真实能力。在本文件中,我们强调评估基本推理过程的重要性以及最终表现的重要性。为了实现这一目标,我们引入了直觉物理学“铁丝线推理”(TRIP),这是一个具有密集说明的新颖的常识推理数据集,能够对机器的推理过程进行多层次的评估。我们的经验结果表明,大型LMS虽然能够取得高端的性能,但很难用有效的佐证证据支持其预测。TRIP数据集和我们的基线结果将鼓励对常识推理进行可核查的评价,并促进今后研究如何发展更好的语言理解和推理模型。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
专知会员服务
53+阅读 · 2020年9月7日
专知会员服务
117+阅读 · 2019年12月24日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员