Reinforcement Learning (RL) has emerged as a powerful paradigm for advancing Large Language Models (LLMs), achieving remarkable performance in complex reasoning domains such as mathematics and code generation. However, current RL methods face a fundamental scalability bottleneck due to their heavy reliance on human-curated preference data or labeled datasets for reward modeling. To overcome this limitation, we explore RL on unlabeled data where models learn autonomously from continuous experience streams. The core challenge in this setting lies in reliable reward estimation without ground-truth supervision. Existing approaches like Test-Time RL address this through self-consistent consensus, but risk reinforcing incorrect pseudo-labels derived from majority voting. We introduce COMPASS (Composite Path and Answer Self-Scoring), a novel test-time reward mechanism that operates without external supervision. COMPASS integrates two complementary components: the Dual-Calibration Answer Reward (DCAR), which stabilizes training by establishing trustworthy pseudo-labels through confidence and credibility calibration, and the Decisive Path Reward (DPR), which directly optimizes the reasoning process quality beyond mere outcome supervision. By jointly reinforcing trustworthy consensus answers and highly decisive reasoning chains, the COMPASS systematically enhances the model's analytical capabilities. Extensive experiments show that COMPASS achieves significant and consistent performance gains across diverse reasoning tasks and model architectures, advancing a more scalable direction for LLMs to learn from continuous experience.


翻译:强化学习已成为推动大语言模型发展的强大范式,在数学和代码生成等复杂推理领域取得了显著性能。然而,当前强化学习方法因其严重依赖人工标注的偏好数据或带标签数据集进行奖励建模,面临根本的可扩展性瓶颈。为克服这一局限,我们探索在无标签数据上进行强化学习,使模型能够从连续经验流中自主学习。该场景下的核心挑战在于缺乏真实监督的情况下进行可靠的奖励估计。现有方法如测试时强化学习通过自洽一致性解决此问题,但存在强化由多数投票得出的错误伪标签的风险。我们提出了COMPASS(复合路径与答案自评分),一种无需外部监督的新型测试时奖励机制。COMPASS整合了两个互补组件:双校准答案奖励,通过置信度与可信度校准建立可靠的伪标签以稳定训练;以及决定性路径奖励,直接优化推理过程质量,超越仅对结果的监督。通过联合强化可信的共识答案和高度决定性的推理链,COMPASS系统性地提升了模型的分析能力。大量实验表明,COMPASS在不同推理任务和模型架构上均实现了显著且一致的性能提升,为大语言模型从连续经验中学习开辟了更具可扩展性的方向。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
【NeurIPS2023】CQM: 与量化世界模型的课程强化学习
专知会员服务
25+阅读 · 2023年10月29日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
注意力机制综述(中文版)
专知
23+阅读 · 2021年1月26日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
【NeurIPS2023】CQM: 与量化世界模型的课程强化学习
专知会员服务
25+阅读 · 2023年10月29日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员