【ICML2025】通过多智能体反思强化大语言模型推理 - 专知VIP

会员服务 ·

8

多智能体 · 大语言模型 · 大语言模型推理 · ICML 2025 ·

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

利用更多的测试时计算增强大语言模型推理能力

已证明，利用更多的测试时计算是一种有效的方法，可以提升大语言模型（LLMs）的推理能力。在多种方法中，验证与改进（verify-and-improve）范式尤为突出，因为它使得模型能够进行动态的解决方案探索并整合反馈。然而，现有的方法通常面临反馈空间受限和缺乏不同方协调训练的问题，导致性能不尽如人意。为了应对这一挑战，我们将这一多回合的改进过程建模为一个马尔可夫决策过程（MDP），并引入了DPSDP（通过动态规划的直接策略搜索），一种强化学习算法，它训练一个演员-评论员（actor-critic）大语言模型系统，通过在自生成数据上进行直接偏好学习，迭代地改进答案。从理论上讲，DPSDP能够在训练分布内匹配任何策略的性能。通过实证研究，我们使用不同的基础模型实例化DPSDP，并展示了在内外分布基准测试中的改进。例如，在MATH 500基准测试中，通过五轮改进步骤进行多数投票，使用基于Ministral的模型将首次准确率从58.2%提高到63.2%。一项消融研究进一步确认了多智能体协作和外部分布泛化的优势。

主要贡献

方法创新：提出了DPSDP算法，将多回合的推理过程建模为马尔可夫决策过程，并通过直接偏好学习进行答案改进。 1. 性能提升：在多个基准测试中，DPSDP方法显著提升了大语言模型的推理性能，尤其是在内外分布的任务上。 1. 多智能体协作：通过多智能体协作，进一步验证了该方法在面对复杂推理任务时的优势，尤其是在提高外部分布的泛化能力上。

成为VIP会员查看完整内容

12

相关内容

多智能体

【CVPR2025】个性化视觉与语言生成

【CVPR2025】个性化视觉与语言生成

专知会员服务

7+阅读 · 5月1日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

66+阅读 · 2023年10月14日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

16+阅读 · 2022年3月17日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

16+阅读 · 2021年8月13日

【ACL2021】可学习知识引导的事件因果关系识别数据增强方法

专知会员服务

34+阅读 · 2021年8月11日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

【VALSE 前沿技术选介17-09期】自监督学习近期进展

【VALSE 前沿技术选介17-09期】自监督学习近期进展

VALSE

13+阅读 · 2017年10月20日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

99+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

211+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

464+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

24+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

VIP会员

相关主题

大语言模型

大语言模型推理

相关VIP内容

【CVPR2025】个性化视觉与语言生成

【CVPR2025】个性化视觉与语言生成

专知会员服务

7+阅读 · 5月1日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

66+阅读 · 2023年10月14日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

16+阅读 · 2022年3月17日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

16+阅读 · 2021年8月13日

【ACL2021】可学习知识引导的事件因果关系识别数据增强方法

专知会员服务

34+阅读 · 2021年8月11日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】机器学习的信息论基础

视觉通用模型综述

重审扩散模型：从生成式预训练到一步生成

大模型推理的天花板在哪里？

相关资讯

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

【VALSE 前沿技术选介17-09期】自监督学习近期进展

【VALSE 前沿技术选介17-09期】自监督学习近期进展

VALSE

13+阅读 · 2017年10月20日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

99+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

211+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

464+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

24+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

微信扫码咨询专知VIP会员