会员服务 ·

清华十大才女宋晓东教授团队新作，教语言模型更会做数学题

2021 年 3 月 19 日 新智元

新智元报道

来源：外媒

编辑：yaxin, LQ

【新智元导读】GPT-3很强大？但做数学题不行。最新研究表明，当GPT-3面对一个包含1.3万道数学题的数据集时，它的完成度远达不到10%. 那么如何提高语言模型的解题能力？加州大学伯克利分校最新的一项研究提供了新思路。

数学是人类科学的基础。

我们在模拟行星轨道、原子运动、信号频率、蛋白质折叠等活动中都离不开数学。

即便今天最先进的机器学习模型也难以正确解决大量的数学问题。

加州大学伯克利分校的研究人员发表的一项新研究发现，包括OpenAI的GPT-3在内的大型语言模型在包含12500多道数学题的数据集中只能完成2.9%—6.9%的问题。

论文作者认为，「新的算法进步可能需要给予模型更强的解决问题的技能。」

语言模型解决数学问题

先前的研究已经证明了人工智能对数学概念的牢固掌握是非常有用的。

例如，OpenAI最近引入的GPT-f就很好地阐明了这个问题。

与GPT-3类似，最新推出的GPT-f同样是基于Transformer的语言模型。

该语言模型为 Metamath 形式化语言提供了自动证明器和证明助理（Proof Assistant）两个部分，目标是解决自动定理证明（ATP）的问题。

这项研究成果表明，GPT-f 能够产出新的简短命题证明，这些证明已被 Metamath 数学库接受。

这是第一次一个基于机器学习的系统提供的证明被一个正式的数学社区所采用。

除此之外，Facebook也声称已经成功地进行了人工智能算法的数学求解实验。

在去年1月的一篇博文中，该公司的研究人员表示，他们已经教会了一个模型，将复杂的数学方程视为一种语言，然后将解决方案视为翻译问题。

加州大学伯克利分校的研究人员认为，虽然大型语言模型解决了大多数其他基于文本的任务，但是数学却截然不同，其准确性正在缓慢提高。

如果按照这种趋势继续下去，社区将需要找到概念和算法上的突破，以获得强大的数学表现。

「考虑到数学的广泛性和适用性，用机器学习解决数学数据集将具有深远的意义。」

全新开源数据集MATH和AMPS

为了测量大型通用语言模型的解题能力，研究人员创建了MATH数据集，其中包括12500道高中数学竞赛的题目。对于 MATH所出的题，语言模型必须生成一个序列来揭示最终答案。

MATH数据集的数学题目与DeepMind的数学数据集和Metamath模块的数学题目的比较（图源: MATH）

MATH的数学题按难度从1到5划分，涵盖7个学科：几何、代数、微积分、统计学、线性代数和数论。

它们还提供了分步解决方案，这样语言模型就可以学习回答他们以前从未见过的新问题。

训练数学基本原理的模型要求研究人员创建一个单独的数据集，包含数十万个常见数学问题的解题方法。

第二个数据集是「Auxiliary Mathematics Problems and Solutions」(AMPS) ，其中包括「可汗学院」提供的10万多个题目和解题方法，以及使用基于100个手工设计模块的Mathematica脚本生成的500多万道题。AMPS数据集总共包含23GB的内容。

非盈利教育机构可汗学院

正如研究人员解释的那样，数据集的分步解决方案允许语言模型像人类数学家那样使用「涂销空间」。

模型不需要马上得到正确答案，而是可以先在部分解题方法中「展示他们的工作」，再逐步走向正确的答案。

MATH数据集给定部分解法的准确率

以题目的大部分步解法为条件的模型往往可以通过理解解法来预测最终答案。'99%'的解法是指最终答案之前的所有解法文本。并不是所有的解题方法都有一个答案，都可以直接从前面的解题文本中找到。

即使有了这些解题方法，论文作者发现他们所测试的大型语言模型 (GPT-3及其前身GPT-2）的准确率仍然很低。让模型在生成答案之前生成自己的解题方案实际上降低了准确性，因为尽管许多步骤与题目相关，但它们是不合逻辑的。

此外，简单地增加训练时间和模型中的参数数量，有时可以提高性能，但事实证明这样做不仅代价很高而且并不实用。(在机器学习中，参数是变量，其值控制学习过程。)

在这种情况下，研究人员表明，分步解题方法仍然可以改善性能。特别是，在训练时提供解题方案模型大大提高了准确性，AMPS的预训练准确性提高了25%左右，相当于模型大小增加了15倍。

「尽管准确度很低，但模型显然拥有一些数学知识: 在最低难度级别上，它们可以达到15% 的准确率，而且即使不正确，它们也能够逐步生成连贯的、与主题相关的解题方案......与直接对问题和答案进行训练相比，对模型进行解题方案的训练相对准确性可以提高10%.

目前两个数据集MATH和AMPS都已开源，再加上DeepMind的数学数据集，这将进一步这方面的研究。

作者介绍

个人主页：https://people.eecs.berkeley.edu/~hendrycks/

本论文的一作Dan Hendrycks是加州大学伯克利分校计算机科学专业的三年级博士生，导师是Dawn Song（宋晓东）和Jacob Steinhardt，两位导师也是本论文的作者之一。

Hendrycks的研究方向是安全可靠的机器学习，他曾获得美国国家科学基金会GRFP（Graduate Research Fellowship Program）奖学金，研究成果包括激活函数GELU，分布外检测基准和分布偏移基准。

该论文的另一名作者宋晓东，是美籍华人学者，现任加州大学伯克利分校电气工程与计算机科学系教授。

她的研究集中在计算机安全、机器学习和区块链。

宋晓东教授还被称为「计算机安全教母」，2019年，她因「对安全和隐私的贡献」而被选为ACM研究员。

另外她还是区块链云计算提供商绿洲实验室（Oasis Labs）创始人兼CEO，致力于打造区块链上隐私性第一、高性能的云计算平台。

1996年获得清华大学学士学位，1999年获得卡内基梅隆大学硕士学位，2002年获得加州大学伯克利分校博士学位。

在2007年加入加州大学伯克利分校之前，她在卡内基梅隆大学做助理教授(2002-2007)。

宋晓东教授曾获得多项大奖，包括斯隆研究奖、美国国家科学基金会职业奖（CAREER Award）、 IBM杰出学者奖（Faculty Award）、古根海姆奖、麦克阿瑟基金会奖学金，2009年，《麻省理工科技评论》的TR35将她列为全球35岁以下创新者之一。

参考资料：

https://venturebeat.com/2021/03/09/researchers-find-that-large-language-models-struggle-with-math/

https://arxiv.org/pdf/2103.03874.pdf

登录查看更多

相关内容

语言模型

关注 12

78页最新「深度学习现代数学」大综述论文，数学分析深度学习为何成功的理论

专知会员服务

109+阅读 · 2021年5月15日

【AAAI2021】预训练语言模型最新进展，附113页ppt和视频

专知会员服务

65+阅读 · 2021年2月23日

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

专知会员服务

59+阅读 · 2021年1月29日

【2020新书】深度学习自然语言处理简明导论，69页pdf

专知会员服务

117+阅读 · 2020年11月7日

【干货书】计算机科学离散数学，627页pdf

专知会员服务

133+阅读 · 2020年8月31日

斯坦福EE364a《凸优化》课件，301页ppt

专知会员服务

98+阅读 · 2020年7月14日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【AI应用】Facebook-利用神经网络求解高等数学方程, Using neural networks to solve advanced mathematics equations

专知会员服务

34+阅读 · 2020年1月15日

斯坦福新书《应用线性代数导论：向量、矩阵和最小二乘法》473页pdf，带你入门学习

专知会员服务

255+阅读 · 2019年11月30日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

95后达摩院实习生击败微软，打破NLP最难任务世界纪录

新智元

8+阅读 · 2019年7月17日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

中国人工智能学会

7+阅读 · 2019年2月15日

【数据科学家】数学是什么？麻省理工牛人解说数学体系

产业智能官

8+阅读 · 2018年12月22日

【资源】这本开放书籍帮你扫清通往ML的数学绊脚石

机器学习算法与Python学习

56+阅读 · 2018年10月28日

丘成桐：攻克物理难题的数学大师

科技导报

5+阅读 · 2018年7月23日

机器翻译的技术进化史——机器翻译专题（一）

线性资本

8+阅读 · 2018年1月16日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

Teacher Model Fingerprinting Attacks Against Transfer Learning

Arxiv

0+阅读 · 2021年6月23日

TD-GEN: Graph Generation With Tree Decomposition

Arxiv

0+阅读 · 2021年6月20日

Generalized Linear Randomized Response Modeling using GLMMRR

Arxiv

0+阅读 · 2021年6月18日

Unsupervised Cross-lingual Representation Learning at Scale

Arxiv

5+阅读 · 2019年11月5日

Dynamically Pruned Message Passing Networks for Large-Scale Knowledge Graph Reasoning

Arxiv

6+阅读 · 2019年9月27日

Modeling question asking using neural program generation

Arxiv

4+阅读 · 2019年9月26日

Keyphrase Generation for Scientific Articles using GANs

Arxiv

8+阅读 · 2019年9月24日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Text Generation with Exemplar-based Adaptive Decoding

Arxiv

4+阅读 · 2019年4月9日

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

VIP会员