AI做题不止高数！Google新模型Minerva称霸工科竞赛：秘诀竟是保留LaTeX表达式？

会员服务 ·

AI做题不止高数！Google新模型Minerva称霸工科竞赛：秘诀竟是保留LaTeX表达式？

2022 年 7 月 4 日 新智元

新智元报道

编辑：LRS

【新智元导读】Google的新语言模型Minerva将AI做数学题的水平抬到新高度，而且工科领域如天文、几何、代数、机器学习统统不在话下。

用学「语文」的脑子能学好「数学」吗？

从Bert开始，到GPT-3, Gopher和PaLM，大型语言模型在各个自然语言处理任务上不断刷新成绩，创作个小作文、聊个天、写个代码都不在话下，可以说语言模型在大规模数据集下的自监督训练下已经能很好地模拟人类的语言能力了。

但定量推理（Quantitative Reasoning），也就是解决数学问题上，AI模型跟人类比还是有相当大的差距。

如果把「数学问题」作为文本输入，答案作为输出，也就只能解决一些小学数学的应用题，至于大学数学以及其他的科学和工程问题，语言模型只会「胡言乱语」。

MIT之前剑走偏锋，把「问题」作为输入，「程序代码」作为输出，基于OpenAI Codex预训练模型，借助Python解释器，在七门大学数学课程上通过few-shot learning成功达到81%的正确率。

最近Google也发布了一个基于PaLM语言模型的求解器

，在不借助外部工具的情况下取得了sota的结果。

论文链接：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

演示链接：https://minerva-demo.github.io/

Minerva最主要的改进点在于微调的数据集。

研究人员首先在arXiv服务器上下载了200万篇用LaTex排版的科学论文（截至2021年2月），在删掉那些内容不足75000个token的论文后，最后得到了120万篇论文，共计58GB

第二个数据渠道来自网页，先收集HTML中包含「<math」或者「MathJax-Element-」标签的，然后采用两个启发式规则过滤出用LaTex或者ASCII-math格式的内容，最后得到60GB数据

标准的数据清洗过程通常都是把符号和数学表达式给删掉，导致E=mc^2给转成了E=mc2，语义就变了。在保留LaTex数学公式后，模型在那些要求计算和符号操作的任务上性能得到显著提高。

最终的训练数据连带自然语言文本和数学公式在内总共包含了385亿个token。

Minerva的训练基于三个不同尺寸的PaLM模型。

Minerva生成答案的过程使用了Chain of Thought方法来提示模型step-by-step地解决问题。

另一个技术是Majority Voting，在回答一个问题时虽然答案相同，但推理过程可能不同，Minerva通过从所有可能的输出中随机抽样来产生多个解决方案，然后对结果进行投票，把出现次数最多的结果作为最终的答案。

在评估阶段，使用了三个数据集：

MATH: 高中数学竞赛水平，包括12000个初中和高中的数学问题，问题描述使用LaTex

GSM8k: 小学级别的数学问题，包括基本的算术运算。

MMLU-STEM: 大规模多任务语言理解基准的一个子集，涵盖高中和大学水平的工程、化学、数学和物理等多个学科

实验结果直接把基线抬高一个层次，MATH的sota直接从6.9提高到50.3，而MMLU-STEM也有大幅提升。

解决这几个「简单的」数据集之后，Minerva又把目标对准本科生水平的STEM问题（OCWCourses），研究人员根据MIT提供的公开课程材料（OpenCourseWare）中，在「固态化学」、「信息与熵」、「微分方程」和「狭义相对论」等课程中收集了272个问题，其中191个有数字解，81个有符号解，最终正确率达到30.8%

除此之外，Minerva 62B还参加了一次「波兰的全国数学考试」，最后得分57，正好是2021年的全国平均分；而540B的模型最终成绩为65分。

比如说几何体，尽管模型从来没有「看见」过立方体，但它仍然能通过公式计算出表面积。

虽然Minerva的性能已经很强了，但它仍然做错了很多题目，通过分析结果可以发现，大约一半的错误是因为计算错误，另一半是推理错误，也就是解题步骤跳跃了，没有遵循思维链。

下面这个例子就是个计算错误，把式子里的根号给消了（难不成是通过其他数学公式推理出来的消根号）

推理错误的例子里，模型的推理链只有一次，实际上应该进行5次。

而且有的Minerva做对的题目也没有完全正确，有的步骤错了，但结果正确，这种情况称为False Positive，假阳率大概是8%

Minerva的这种方法也存在局限性，定量推理没有以形式化的数学公式为基础，而是采用自然语言和LaTeX数学表达式的组合来解析问题和生成答案，没有明确的基础数学结构。

最重要的是，模型生成的答案没法自动验证，即使最终答案的只是一个数值或者符号，可以通过匹配字符来验证，模型也可以通过不正确的推理步骤得出最终的正确答案。如果不是人来阅卷的话，很难发现其中的端倪。而这种限制在定理证明的形式化方法中是不存在的。

不过非形式化方法的一个优点是它可以应用于比较灵活、不适合形式化描述的问题。

Minerva还公开了模型的输入样例和预测结果，包括物理、生物、化学、天文学、机器学习等多个领域。

下面是几道「机器学习」的问题。

以下哪一项是修剪决策树的主要原因？

A. 减少测试时的计算时间

B. 节省保存决策树的空间

C. 在训练集上的错误率更低

D. 避免在训练集上过拟合

模型返回的答案为「决策树剪枝是为了防止在训练集过拟合」，所以答案为D

还有一些概念上的题目：out-of-distribtion detection换种说法叫什么？

A. 异常检测

B. One-Class检测

C. train-test 失配稳健性

D. 背景检测

模型返回的答案为「Out-of-distribution检测任务就是找出那些不属于任何一个训练类别的样例，也称为异常检测」

不过稍难一些、不是很直观的题来说，模型还是很难回答正确，比如问题是：在指定数据集上构建一个线性回归模型，发现有一个特征的权重系数值有一个很高的负值，说明什么？

A. 该特征对模型有很强的影响（应该保留）

B. 该特征对模型没什么影响（应该删除）

C. 没有额外信息的话很难知道该特征的重要性

D. 什么也无法确定

模型返回的答案为「该特征对模型有一个负面影响」，所以答案为B，但实际上答案为C

要是这些题当面试题，你能答对吗？

参考资料：

http://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

登录查看更多

相关内容

语言模型

关注 13

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【KDD2021】TUTA: 通用表格预训练的树结构Transformer

专知会员服务

25+阅读 · 2021年8月22日

字节跳动今斩获最佳论文，ACL 2021各大奖项揭晓

专知会员服务

50+阅读 · 2021年7月7日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

110+阅读 · 2020年12月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用

专知会员服务

94+阅读 · 2020年5月16日

CMU-卡内基梅隆大学2020《神经网络自然语言处理》课程课件全集，不可错过！

专知会员服务

68+阅读 · 2020年3月20日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心

2+阅读 · 2022年7月24日

人工智能学会数学推理了，考试成绩比CS博士还高

极市平台

0+阅读 · 2022年7月2日

AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士

THU数据派

0+阅读 · 2022年7月1日

MIT发布加强版「高数」求解器：7门课程正确率达81%

新智元

0+阅读 · 2022年6月28日

震惊四座! 哄一哄能让GPT-3准确率暴涨61%！

THU数据派

0+阅读 · 2022年5月26日

哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座

量子位

0+阅读 · 2022年5月26日

AllenAI | 用GPT-3帮助增建数据，NLI任务直接提升十个点！？

夕小瑶的卖萌屋

0+阅读 · 2022年1月19日

AI生成高数题，难出新高度：MIT提出首个可出题、做题、评分的算法模型

机器之心

0+阅读 · 2022年1月4日

AI学高数达到MIT本科水平，学了微积分线性代数概率论等6门课，不光能做题还能出题

量子位

0+阅读 · 2022年1月4日

OpenAI用GPT-3与小学生比数学，水平达90%！60亿小模型性能翻倍，追平1750亿大模型

THU数据派

0+阅读 · 2021年11月1日

毛竹林碳通量对极端干旱的响应机制与模型模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

IFN-τ调控奶牛子宫内膜上皮细胞差异表达BoLA-I的分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

RNA解旋酶ddx39a在斑马鱼胚胎发育中的功能及调控细胞增殖的分子机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

图形用户界面效率模型和优化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

粘土矿物调控土壤中二噁英的生成与机制

国家自然科学基金

0+阅读 · 2012年12月31日

有切变夹卷过程及其参数化研究

国家自然科学基金

0+阅读 · 2009年12月31日

参数多项式方程组求解及其在机器证明中的应用

国家自然科学基金

0+阅读 · 2009年12月31日

生物计算机粘贴模型及其广义编码研究

国家自然科学基金

0+阅读 · 2009年12月31日

有限制条件的几何定理机器证明

国家自然科学基金

0+阅读 · 2009年12月31日

土壤中重金属污染物形态及生物可利用性的预测模型研究

国家自然科学基金

0+阅读 · 2008年12月31日

Explainable expected goal models for performance analysis in football analytics

Arxiv

0+阅读 · 2022年9月6日

Improving Compositional Generalization in Math Word Problem Solving

Arxiv

0+阅读 · 2022年9月3日

Extend and Explain: Interpreting Very Long Language Models

Arxiv

0+阅读 · 2022年9月2日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

An Interpretable Reasoning Network for Multi-Relation Question Answering

Arxiv

13+阅读 · 2018年6月1日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

VIP会员