基于期望最大化的大语言模型推理学习 (Learning to Reason in LLMs by Expectation Maximization) - 专知论文

会员服务 ·

0

期望最大 · 期望最大化 · 语言模型 · 模型推理 · 大语言模型推理 ·

Learning to Reason in LLMs by Expectation Maximization

翻译：基于期望最大化的大语言模型推理学习

Junghyun Lee,Branislav Kveton,Sunav Choudhary,Subhojyoti Mukherjee,Anup Rao,Ryan A. Rossi,Alexa Siu

from arxiv, 12 pages, 3 figures, 1 table

Large language models (LLMs) solve reasoning problems by first generating a rationale and then answering. We formalize reasoning as a latent variable model and derive an expectation-maximization (EM) objective for learning to reason. This view connects EM and modern reward-based optimization, and shows that the main challenge lies in designing a sampling distribution that generates rationales that justify correct answers. We instantiate and compare several sampling schemes: rejection sampling with a budget, self-taught reasoner (STaR), and prompt posterior sampling (PPS), which only keeps the rationalization stage of STaR. Our experiments on the ARC, MMLU, and OpenBookQA datasets with the Llama and Qwen models show that the sampling scheme can significantly affect the accuracy of learned reasoning models. Despite its simplicity, we observe that PPS outperforms the other sampling schemes.

翻译：大语言模型（LLMs）通过先生成推理依据再给出答案来解决推理问题。本文将推理形式化为一个隐变量模型，并推导出用于学习推理的期望最大化（EM）目标。这一视角将EM与现代基于奖励的优化方法联系起来，并表明主要挑战在于设计一种能够生成证明正确答案的推理依据的采样分布。我们实现并比较了多种采样方案：带预算的拒绝采样、自教导推理器（STaR）以及仅保留STaR中推理阶段的提示后验采样（PPS）。我们在ARC、MMLU和OpenBookQA数据集上使用Llama和Qwen模型进行的实验表明，采样方案能显著影响所学推理模型的准确性。尽管方法简单，我们观察到PPS优于其他采样方案。

0

相关内容

期望最大

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 6月8日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

23+阅读 · 2023年5月10日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【NeurIPS2020】无限可能的联合对比学习

专知会员服务

29+阅读 · 2020年10月2日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Semantic Refinement with LLMs for Graph Representations

Arxiv

0+阅读 · 12月24日

On the Design of One-step Diffusion via Shortcutting Flow Paths

Arxiv

0+阅读 · 12月24日

Generalization of RLVR Using Causal Reasoning as a Testbed

Arxiv

0+阅读 · 12月23日

Possibilistic Inferential Models for Post-Selection Inference in High-Dimensional Linear Regression

Arxiv

0+阅读 · 12月22日

Principled Identification of Structural Dynamic Models

Arxiv

0+阅读 · 12月18日

VIP会员

文章信息

相关主题

期望最大化

大语言模型推理

相关VIP内容

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 6月8日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

23+阅读 · 2023年5月10日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【NeurIPS2020】无限可能的联合对比学习

专知会员服务

29+阅读 · 2020年10月2日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

人工智能与未来指挥

【伯克利博士论文】将大语言模型绑定至虚拟人格：实现人类行为模拟

稀疏自编码器综述：解释大语言模型的内部机制

相关资讯

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

相关论文

Semantic Refinement with LLMs for Graph Representations

Arxiv

0+阅读 · 12月24日

On the Design of One-step Diffusion via Shortcutting Flow Paths

Arxiv

0+阅读 · 12月24日

Generalization of RLVR Using Causal Reasoning as a Testbed

Arxiv

0+阅读 · 12月23日

Possibilistic Inferential Models for Post-Selection Inference in High-Dimensional Linear Regression

Arxiv

0+阅读 · 12月22日

Principled Identification of Structural Dynamic Models

Arxiv

0+阅读 · 12月18日

相关基金

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员