Reward models and LLM-as-a-Judge systems are central to modern post-training pipelines such as RLHF, DPO, and RLAIF, where they provide scalar feedback and binary decisions that guide model selection and RL-based fine-tuning. We show that these judge systems exhibit a recurring vulnerability: short sequences of low-perplexity control tokens can flip many binary evaluations from correct ``No'' judgments to incorrect ``Yes'' judgments by steering the last-layer logit gap. These control tokens are patterns that a policy model could plausibly generate during post-training, and thus represent realistic reward-hacking risks rather than worst-case adversarial strings. Our method, AdvJudge-Zero, uses the model's next-token distribution and beam-search exploration to discover diverse control-token sequences from scratch, and our analysis shows that the induced hidden-state perturbations concentrate in a low-rank ``soft mode'' that is anti-aligned with the judge's refusal direction. Empirically, these tokens cause very high false positive rates when large open-weight and specialized judge models score incorrect answers on math and reasoning benchmarks. Finally, we show that LoRA-based adversarial training on small sets of control-token-augmented examples can markedly reduce these false positives while preserving evaluation quality.


翻译:奖励模型与LLM-as-a-Judge系统是现代后训练流程(如RLHF、DPO和RLAIF)的核心组成部分,它们通过提供标量反馈与二元决策来指导模型选择及基于强化学习的微调。我们发现这些评判系统存在一种反复出现的脆弱性:通过操纵末层对数几率差值,短序列的低困惑度控制令牌能够将大量二元评估从正确的“否”判断翻转为错误的“是”判断。这些控制令牌是策略模型在后训练过程中可能生成的模式,因此代表着现实存在的奖励攻击风险,而非最坏情况的对抗性字符串。我们提出的方法AdvJudge-Zero,利用模型的下一个令牌分布与束搜索探索,从零开始发现多样化的控制令牌序列;分析表明,由此引发的隐藏状态扰动会集中于一个低秩“软模态”,该模态与评判器的拒绝方向呈反对齐状态。实证结果显示,当大型开放权重及专用评判模型在数学与推理基准测试中对错误答案进行评分时,这些令牌会导致极高的误报率。最后,我们证明基于LoRA的对抗性训练——仅需使用少量经控制令牌增强的示例——能显著降低此类误报,同时保持评估质量。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年6月19日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员