State-of-the-art language models can match human performance on many tasks, but they still struggle to robustly perform multi-step mathematical reasoning. To diagnose the failures of current models and support research, we introduce GSM8K, a dataset of 8.5K high quality linguistically diverse grade school math word problems. We find that even the largest transformer models fail to achieve high test performance, despite the conceptual simplicity of this problem distribution. To increase performance, we propose training verifiers to judge the correctness of model completions. At test time, we generate many candidate solutions and select the one ranked highest by the verifier. We demonstrate that verification significantly improves performance on GSM8K, and we provide strong empirical evidence that verification scales more effectively with increased data than a finetuning baseline.


翻译:最先进的语言模型可以与人类在许多任务上的表现相匹配,但是它们仍然难以有力地执行多步数学推理。为了诊断当前模型的失败和支持研究,我们引入了GSM8K,这是一个高质量的8.5K高语言多样性的高中数学词词数据集。我们发现,即使最大的变压器模型也未能达到高测试性能,尽管这一问题分布在概念上简单。为了提高性能,我们建议培训核查员来判断模型完成的正确性。在测试时,我们产生了许多候选解决方案,并选择了由核查员排在最高位的解决方案。我们证明,核查大大提高了GSM8K的性能,我们提供了有力的实证证据,证明通过增加数据而不是微调基线来更有效地进行核查。

1
下载
关闭预览

相关内容

区块链白皮书(2020年),60页pdf
专知会员服务
91+阅读 · 2021年1月5日
【2020新书】Python文本分析,104页pdf
专知会员服务
98+阅读 · 2020年12月23日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
专知会员服务
123+阅读 · 2020年9月8日
专知会员服务
52+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Arxiv
22+阅读 · 2021年12月19日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
区块链白皮书(2020年),60页pdf
专知会员服务
91+阅读 · 2021年1月5日
【2020新书】Python文本分析,104页pdf
专知会员服务
98+阅读 · 2020年12月23日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
专知会员服务
123+阅读 · 2020年9月8日
专知会员服务
52+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员