Modern language models fail a fundamental requirement of trustworthy intelligence: knowing when not to answer. Despite achieving impressive accuracy on benchmarks, these models produce confident hallucinations, even when wrong answers carry catastrophic consequences. Our evaluations on GSM8K, MedQA and GPQA show frontier models almost never abstain despite explicit warnings of severe penalties, suggesting that prompts cannot override training that rewards any answer over no answer. As a remedy, we propose Reinforced Hesitation (RH): a modification to Reinforcement Learning from Verifiable Rewards (RLVR) to use ternary rewards (+1 correct, 0 abstention, -$λ$ error) instead of binary. Controlled experiments on logic puzzles reveal that varying $λ$ produces distinct models along a Pareto frontier, where each training penalty yields the optimal model for its corresponding risk regime: low penalties produce aggressive answerers, high penalties conservative abstainers. We then introduce two inference strategies that exploit trained abstention as a coordination signal: cascading routes queries through models with decreasing risk tolerance, while self-cascading re-queries the same model on abstention. Both outperform majority voting with lower computational cost. These results establish abstention as a first-class training objective that transforms ``I don't know'' from failure into a coordination signal, enabling models to earn trust through calibrated honesty about their limits.


翻译:现代语言模型未能满足可信智能的一个基本要求:知道何时不应回答。尽管在基准测试中取得了令人印象深刻的准确率,这些模型仍会产生自信的幻觉,即使错误答案可能带来灾难性后果。我们在GSM8K、MedQA和GPQA上的评估显示,前沿模型几乎从不拒绝回答,尽管明确警告存在严重惩罚,这表明提示无法覆盖训练中对任何回答优于无回答的奖励机制。作为补救措施,我们提出强化犹豫(RH):对可验证奖励强化学习(RLVR)的修改,使用三元奖励(+1正确、0弃权、-$λ$错误)替代二元奖励。在逻辑谜题上的受控实验表明,改变$λ$会在帕累托前沿上产生不同的模型,其中每个训练惩罚对应其相应风险机制的最优模型:低惩罚产生激进的回答者,高惩罚产生保守的弃权者。我们随后引入两种利用训练弃权作为协调信号的推理策略:级联将查询通过风险容忍度递减的模型路由,而自级联在弃权时对同一模型重新查询。两种策略均以更低的计算成本优于多数投票。这些结果将弃权确立为一流的训练目标,将“我不知道”从失败转化为协调信号,使模型能够通过对自身局限性的校准诚实来赢得信任。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员