Human beings solve complex problems through critical thinking, where reasoning and evaluation are intertwined to converge toward correct solutions. However, most existing large language models (LLMs) decouple reasoning from verification: they either generate reasoning without explicit self-checking or rely on external verifiers to detect errors post hoc. The former lacks immediate feedback, while the latter increases system complexity and hinders synchronized learning. Motivated by human critical thinking, we propose Stepwise Think-Critique (STC), a unified framework that interleaves reasoning and self-critique at each step within a single model. STC is trained with a hybrid reinforcement learning objective combining reasoning rewards and critique-consistency rewards to jointly optimize reasoning quality and self-evaluation. Experiments on mathematical reasoning benchmarks show that STC demonstrates strong critic-thinking capabilities and produces more interpretable reasoning traces, representing a step toward LLMs with built-in critical thinking.


翻译:人类通过批判性思维解决复杂问题,其中推理与评估交织,共同趋近于正确解。然而,现有大多数大语言模型(LLMs)将推理与验证分离:它们要么生成推理过程而不进行显式的自我检查,要么依赖外部验证器事后检测错误。前者缺乏即时反馈,而后者增加了系统复杂性并阻碍同步学习。受人类批判性思维的启发,我们提出了逐步思考-批判(STC),一个在单一模型内于每一步交织推理与自我批判的统一框架。STC采用混合强化学习目标进行训练,结合推理奖励与批判一致性奖励,以联合优化推理质量和自我评估。在数学推理基准测试上的实验表明,STC展现出强大的批判性思维能力,并产生更具可解释性的推理轨迹,代表了向具备内置批判性思维的大语言模型迈进的一步。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员