https://escholarship.org/uc/item/678864d8

数学推理是人类智能的关键组成部分,对于推动教育和科学发展至关重要。本论文深入研究了能够进行稳健数学推理的语言模型系统的发展,标志着实现通用人工智能的重要一步。我们引入了多模态和知识密集型基准来评估大型语言模型(LLMs)和视觉语言模型(VLMs)在真实世界中的推理能力,包括视觉信息、表格数据和科学领域。本论文通过提出新的预训练VLMs推动了该领域的发展。例如,PatchTrm引入了一种基于patch的跨模态Transformer模型用于抽象图表推理。我们还提出了创新的检索和工具增强算法,以提升LLMs的能力。值得注意的是,Inter-GPS是一个用于几何的神经符号求解器,展示了人类水平的性能,这是该领域的首次突破。此外,PromptPG开创了使用强化学习进行动态上下文示例选择,显著提高了LLMs的稳定性和准确性。另一个突破性贡献是Chameleon,这一模型将LLMs与外部工具集成,大大增加了其在现实应用中的灵活性和有效性。论文最后分析了在视觉上下文中的最新数学推理进展,并强调了当前的挑战和未来前景。

数学推理是人类智能的基本方面,使我们能够理解和基于数据信息和语言做出决策。它适用于包括科学、工程、金融和日常生活在内的各个领域,涵盖了从基本技能如模式识别和数值运算到更高级技能如问题解决、逻辑推理和抽象思维的一系列能力。开发能够解决数学问题和证明定理的人工智能(AI)系统一直是机器学习和自然语言处理(NLP)研究的重点,追溯到20世纪60年代 [Fei63, Bob64]。 随着深度学习不断革新NLP任务,如问答和机器翻译 [SVL14, KT19],它在数学推理方面也取得了显著进展 [WLS17, YD19, GGB20, WWS22b]。最近,大型语言模型(LLMs)如GPT-4 [Ope23a]和LLaMA 3 [TLI23]展示了令人印象深刻的数学推理能力,在GSM8K [CKB21]等基准上达到了接近人类水平的表现。 然而,目前的研究面临几个挑战。首先,研究主要集中在纯文本领域 [CKB21, HBK21],而现实世界中的数学和科学问题通常涉及多模态上下文,如图像、图表和表格。其次,LLMs在某些文本基准上的表现趋于饱和,改进空间有限 [Ant24, ZWL23]。第三,在需要检索和应用领域知识、进行多步骤推理和使用特定领域工具的更复杂的现实挑战上,仍存在显著的性能差距 [LBX24]。

数学推理是人类智能的基本方面,使我们能够理解和基于数据信息和语言做出决策。它适用于包括科学、工程、金融和日常生活在内的各个领域,涵盖了从基本技能如模式识别和数值运算到更高级技能如问题解决、逻辑推理和抽象思维的一系列能力。开发能够解决数学问题和证明定理的人工智能(AI)系统一直是机器学习和自然语言处理(NLP)研究的重点,追溯到20世纪60年代 [Fei63, Bob64]。 随着深度学习不断革新NLP任务,如问答和机器翻译 [SVL14, KT19],它在数学推理方面也取得了显著进展 [WLS17, YD19, GGB20, WWS22b]。最近,大型语言模型(LLMs)如GPT-4 [Ope23a]和LLaMA 3 [TLI23]展示了令人印象深刻的数学推理能力,在GSM8K [CKB21]等基准上达到了接近人类水平的表现。 然而,目前的研究面临几个挑战。首先,研究主要集中在纯文本领域 [CKB21, HBK21],而现实世界中的数学和科学问题通常涉及多模态上下文,如图像、图表和表格。其次,LLMs在某些文本基准上的表现趋于饱和,改进空间有限 [Ant24, ZWL23]。第三,在需要检索和应用领域知识、进行多步骤推理和使用特定领域工具的更复杂的现实挑战上,仍存在显著的性能差距 [LBX24]。 为了说明当前大型语言模型(LLMs)面临的挑战,我们考虑三个涉及几何图、科学场景和表格上下文的示例问题。解决图1.1中的几何问题需要理解图表、解释符号和属性,并应用适当的定理,如几何平均定理。虽然乍看之下可能会应用毕达哥拉斯定理,但这会导致一个复杂的方程系统。相反,几何平均定理通过建立一个简单的方程并逐步计算,可以更直接地解决问题。 图1.2提出了一个科学问题,需要理解婴儿打开柜门的多模态情境,回忆相关背景知识,并基于情境和知识提供逐步推理以得出正确答案。图1.3展示了两个在表格上下文中的数学文字题。第一个问题要求计算一组数的中位数,需要回忆如何计算中位数,并可能利用Python解释器以获得精确结果。第二个问题涉及更大的表格,可以通过使用行查找工具来定位相关信息,从而简化问题。 解决这些问题需要超越仅处理文本的能力,例如理解视觉信息、检索相关知识和进行严格的逻辑推理,可能还需要外部工具的帮助。当前的LLMs虽然强大,但并不适合处理这些需要复杂推理的多模态、知识密集型问题。

为了解决这些挑战,本论文首先提出了多模态、知识密集型基准来评估LLMs在真实世界数学和科学问题上的能力。这些基准旨在: (1)多模态,包含不仅是文本,还有自然图像、几何图、抽象场景和科学图表;(2)知识密集型,需要检索和应用领域知识、在线资源、教科书、定理和规则;(3)需要严格的多步骤推理,通常需要神经符号推理、工具增强和验证以确保预测的精确性。 本论文随后探索了预训练的视觉语言模型(VLMs),通过预训练和分层图像解析布局来增强数学推理能力。此外,还提出了工具增强和检索增强算法,显著提升了LLMs在实际场景中的数学推理能力。关键见解包括:(1)整合形式语言和符号求解器可以加强LLMs在几何等复杂推理方面的能力;(2)LLMs可以学习动态选择相关示例,以提高上下文学习性能;(3)LLMs可以有效利用外部工具和资源。 最终目标是开发LLMs及其视觉变种VLMs,使其能够更加稳健和灵活地应用数学推理,通过多模态理解、检索和应用相关知识、组合必要的工具,并通过可解释的多步骤推理生成正确的解决方案,以解决各个领域的实际问题。本论文通过新的基准、模型和算法向这一目标迈出了重要步伐,同时揭示了该领域的关键挑战和未来机遇。

成为VIP会员查看完整内容
32

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
35+阅读 · 2023年11月22日
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
66+阅读 · 2023年11月13日
【MIT博士论文】多模态:模型、算法与应用,196页pdf
专知会员服务
113+阅读 · 2023年8月17日
【MIT博士论文】情感理解的计算框架,200页pdf
专知会员服务
39+阅读 · 2023年4月9日
【2022新书】深度学习归一化技术,117页pdf
专知
24+阅读 · 2022年11月25日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员