人工智能学会数学推理了，考试成绩比CS博士还高

会员服务 ·

人工智能学会数学推理了，考试成绩比CS博士还高

2022 年 7 月 1 日 机器之心

机器之心报道

编辑：杜伟、陈萍

这是语言模型推理能力的一个重要里程碑。

AI 在数学方面也有超越人类的趋势了？

昨天，谷歌提交的一篇论文引发了机器学习圈的关注，其提出的语言模型学会了人类做数学题时的方法「一步一步推理」。

在 MATH 数据集上，谷歌的新模型能实现 50% 的准确率——此前对人类的评测结果是：「一个不特别喜欢数学的计算机科学博士生能答对大约 40%，而三届国际数学奥林匹克竞赛（IMO）金牌得主能达到 90%。」

语言模型在各种 NLP 任务上都表现出了卓越的性能。事实上，在众多研究中科研人员总结出一条经验，即以无监督方式在大规模不同数据上训练的神经网络，在不同任务上表现更好。这条经验也适用于 BERT、GPT-3、Gopher 和 PaLM 在内的模型。

和人类相比，在定量推理方面，语言模型的差距还很大。想让语言模型能够解决数学和科学类问题，语言模型还需要掌握各种综合技能，这些技能包括模型能够利用自然语言和数学符号正确解析问题、可以准确利用相关公式和常数、以及生成涉及数值计算和符号操作的解决方案。

但这些都面临着挑战，人们通常认为，使用机器学习来解决定量推理问题，需要在模型架构和训练技术方面取得显著进步，这样一来允许模型访问外部工具，如 Python 解释器。

在 Google Research 提交的这篇论文中，他们推出了语言模型 Minerva，该模型能够解决数学和科学问题，让模型一步一步来。通过收集与定量推理问题相关的训练数据、大规模训练模型，以及使用先进的推理技术，该研究在各种较难的定量推理任务上取得了显著的性能提升。

论文地址：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Minerva：不仅会数学，物理、化学也难不倒

Minerva 通过生成解决方案来解决问题，解决方案包括数值计算、符号操作，而不需要依赖计算器等外部工具。Minerva 将自然语言和数学符号进行结合来解析和回答数学问题。此外，Minerva 还结合了多种技术，包括小样本提示、思维链、暂存器提示以及多数投票原则，从而在 STEM 推理任务上实现 SOTA 性能。

此次，谷歌还提供了交互式示例浏览器来探索 Minerva 的输出！从 Minerva 浏览器界面可以看出，Minerva 不仅可以解决代数问题，还能解决物理、数论、几何、生物、化学、天文学等众多问题。

试用地址：https://minerva-demo.github.io/#category=Algebra&index=1

下面是 Minerva 解决几何问题，立方体的每个边都是 3 英寸长，求立方体的总表面积是多少平方英寸？模型回答：由于立方体有 6 个面，每个面是一个边长为 3 英寸的正方形，总表面积为 (6)(3)^2=54。

Minerva 解决数学问题：平行于 y=4x+6 的线，且穿过 (5,10)。问这条线与 y 轴相交的点的 y 坐标是多少？下面是 Minerva 解答过程：

定量推理，让模型一步一步来

Minerva 建立在 PaLM（Pathways Language Model ）的基础上 ，在 118GB 数据集上进一步训练完成，数据集来自 arXiv 上关于科技方面的论文以及包含使用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步训练。训练之后模型学会使用标准数学符号进行对话。

下表 2 包含了 Minerva 主要的模型和训练超参数，最大的模型具有 540B 参数，在 26B token 上进行了微调。

Minerva 语言模型的不同变体，包括 8B，62B 和 540B。

下图为印度高中学生参加的 2020 年联合入学数学考试（左），这个考试每年有近 200 万参加；波兰国家数学考试（2022 年 5 月）（右），每年约有 27 万高中生参加。以下是 Minerva 答题过程，就像考生一样，分步计算答案：

下图为用于定量推理的数据集：研究者在数据处理过程中保留了数学信息，使模型能够在更高的水平上学习数学。

Minerva 还结合了最新的提示和评估技术，以更好地解决数学问题，包括思维链或 scratchpad 提示。

在回答新问题之前，Minerva 会将解决方案进行分解，进行多数投票。像大多数语言模型一样，Minerva 将可能输出分配不同的概率。在回答问题时，Minerva 不是将单个解决方案得分视为最有可能，而是通过从所有可能的输出中随机抽样来生成多个解决方案。这些解决方案是不同的（例如，步骤不相同），但通常会得出相同的最终答案。Minerva 对这些解决方案使用多数投票，将最常见的结果作为最终答案。

多数投票 Minerva 为每个问题生成多个解决方案，并选择最常见的答案作为解决方案，显著提高性能。

STEM 基准评估结果

为了测试 Minerva 的定量推理能力，谷歌在不同的 STEM 基准上进行了评估，覆盖从小学水平的问题到研究生水平的课程。使用的基准数据集包括如下：

MATH：高中数学竞赛水平的问题；
MMLU-STEM：大规模多任务语言理解（MMLU）基准中专注于 STEM 的子集，涵盖了高中和大学级别的工程、化学、数学和物理等；
GSM8k：小学水平的数学题，包括基础算数运算等。

此外，谷歌还在 OCWCourses 上评估了 Minerva，这是一个大学和研究生水平的问题集合，涵盖了从 MIT OpenCourseWare 中收集的固态化学、天文学、微分方程和狭义相对论等各种 STEM 主题。

结果表明，在所有数据集的评估中，Minerva 都实现了 SOTA 结果，有时甚至是大幅提升。

下图为 MATH 和 MMLU-STEM 上的评估结果，其中高中和大学级别的问题涵盖了一系列 STEM 主题。可以看到，Minerva 62B 和 Minerva 540B 在 MATH 上的准确率均高于已有 SOTA，Minerva 540B 在 MMLU-STEM 上均高于已有 SOTA。

总体来看，Minerva 540B 在小学、高中和大学级别的 STEM 评估数据集上，均取得了显著优于已有 SOTA 的结果。

与 PaLM 8B、62B 和 540B 的更详细比较结果如下表所示。

谷歌研究科学家、论文作者之一 Aitor Lewkowycz 给出了更具体的评估示例。他们在 2022 年波兰国家数学考试中对 Minerva 进行了评估，它解决了 80% 以上的 GCSE 高等数学问题，评估了 MIT 的各种本科级别的 STEM 问题并解决了其中的近三分之一。

Minerva 也会出错

不过，Minerva 仍然犯了很多错误。为了更好地确认模型可以改进的领域，谷歌分析了模型出错的问题样本，发现大多数错误很容易解释。结果表明，大约一半是计算错误，另一半是推理误差，原因是解决步骤没有遵循逻辑思考链。

错误类型。

同时，Minerva 也有可能得出正确的最终答案，但推理依然错误。谷歌将这种情况称为「误报」，因为它们被错误地计入到了模型的整体性能得分。分析结果显示，误报率相对较低，Minerva 62B 在 MATH 数据集上的平均误报率低于 8%。

谷歌提供了 Minerva 出错的一些样本示例。比如下图中的计算错误，模型错误地消去了方程两边的平方根。

下图为推理错误，模型在第四次练习中计算了罚球次数，但之后却将这一数字作为第一次练习的最终答案。

局限性及未来改进方向

谷歌的定量推理方法并不是以形式数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式的组合来解析问题并生成答案，没有明确的底层数学结构。

因此，这种方法存在一个重要局限，模型的答案无法获得自动验证。即使最终答案已知并且可以验证，模型也可以使用错误的推理步骤得出正确的最终答案，而这无法自动检测到。这种局限在 Coq、Isabelle、HOL、Lean、Metamath 和 Mizar 等形式化定理证明方法中不存在。

另一方面，非形式方法的一个优势是它可以应用在高度多样化的问题中。

未来，谷歌希望能够解决定量推理问题的通用模型推动科学和教育的前沿发展。定量推理模型具有很多潜在的应用，包括为研究人员提供有用的帮助，为学生提供新的学习机会。Minerva 模型朝着这些目标迈出了一小步。

原文链接：

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

定量

关注 0

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

《将机器中的语言与大脑中的语言联系起来》150页博士论文，卡耐基梅隆大学

专知会员服务

48+阅读 · 2022年5月12日

神经网络如何推理？看这份IJCAI2021《神经机器翻推理：理论与应用》教程，附245页Slides

专知会员服务

53+阅读 · 2021年8月22日

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

62+阅读 · 2021年6月7日

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【论文】多关系庞加莱图嵌入（Multi-relational Poincaré Graph Embeddings），爱丁堡大学| Ivana Balažević

专知会员服务

59+阅读 · 2019年12月30日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

超越PaLM！北大硕士提出DiVeRSe，全面刷新NLP推理排行榜

新智元

0+阅读 · 2022年7月5日

AI做题不止高数！Google新模型Minerva称霸工科竞赛：秘诀竟是保留LaTeX表达式？

新智元

0+阅读 · 2022年7月4日

7 Papers & Radios | 机器人顶会RSS最佳论文；谷歌用语言模型解数学题

机器之心

1+阅读 · 2022年7月3日

AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士

量子位

0+阅读 · 2022年7月1日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

机器之心

0+阅读 · 2022年4月12日

谷歌Jeff Dean长文展望：2021年之后，机器学习领域的五大潜力趋势

专知

0+阅读 · 2022年1月13日

谷歌大神Jeff Dean领衔，万字展望5大AI趋势

学术头条

2+阅读 · 2022年1月12日

专家观点 | 人工智能解决数学题：“大力未必出奇迹”

中国科学院自动化研究所

0+阅读 · 2021年11月24日

OpenAI用GPT-3与小学生比数学，水平达90%！60亿小模型性能翻倍，追平1750亿大模型

新智元

0+阅读 · 2021年11月1日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

知识获取与信息融合的数学理论及其应用模型集成研究

国家自然科学基金

0+阅读 · 2012年12月31日

电子与信息学报

国家自然科学基金

0+阅读 · 2011年12月31日

膜乳化耦合溶剂挥发法制备微球的方法学研究及微球性质间关联规则模型的建立

国家自然科学基金

0+阅读 · 2011年12月31日

矩阵秩极小问题的松弛理论与算法研究

国家自然科学基金

1+阅读 · 2011年12月31日

《软件学报》学术期刊

国家自然科学基金

6+阅读 · 2011年12月31日

基于图形处理器的高性能计算

国家自然科学基金

0+阅读 · 2009年12月31日

Managing Sets of Flying Base Stations Using an Energy Efficient Multi-Drone 3D Trajectory Approach in Cellular Networks

Arxiv

0+阅读 · 2022年9月6日

Layer or Representation Space:What makes BERT-based Evaluation Metrics Robust?

Arxiv

0+阅读 · 2022年9月6日

Selective Annotation Makes Language Models Better Few-Shot Learners

Arxiv

0+阅读 · 2022年9月5日

Can Language Understand Depth?

Arxiv

0+阅读 · 2022年9月5日

SCL-RAI: Span-based Contrastive Learning with Retrieval Augmented Inference for Unlabeled Entity Problem in NER

Arxiv

0+阅读 · 2022年9月4日

Improving Compositional Generalization in Math Word Problem Solving

Arxiv

0+阅读 · 2022年9月3日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

VIP会员