Observability into the decision making of modern AI systems may be required to safely deploy increasingly capable agents. Monitoring the chain-of-thought (CoT) of today's reasoning models has proven effective for detecting misbehavior. However, this "monitorability" may be fragile under different training procedures, data sources, or even continued system scaling. To measure and track monitorability, we propose three evaluation archetypes (intervention, process, and outcome-property) and a new monitorability metric, and introduce a broad evaluation suite. We demonstrate that these evaluations can catch simple model organisms trained to have obfuscated CoTs, and that CoT monitoring is more effective than action-only monitoring in practical settings. We compare the monitorability of various frontier models and find that most models are fairly, but not perfectly, monitorable. We also evaluate how monitorability scales with inference-time compute, reinforcement learning optimization, and pre-training model size. We find that longer CoTs are generally more monitorable and that RL optimization does not materially decrease monitorability even at the current frontier scale. Notably, we find that for a model at a low reasoning effort, we could instead deploy a smaller model at a higher reasoning effort (thereby matching capabilities) and obtain a higher monitorability, albeit at a higher overall inference compute cost. We further investigate agent-monitor scaling trends and find that scaling a weak monitor's test-time compute when monitoring a strong agent increases monitorability. Giving the weak monitor access to CoT not only improves monitorability, but it steepens the monitor's test-time compute to monitorability scaling trend. Finally, we show we can improve monitorability by asking models follow-up questions and giving their follow-up CoT to the monitor.


翻译:为安全部署日益强大的智能体,可能需要对现代人工智能系统的决策过程进行可观测性。监测当前推理模型的思维链已被证明能有效检测异常行为。然而,这种"可监测性"在不同训练流程、数据源甚至持续的系统扩展下可能具有脆弱性。为量化和追踪可监测性,我们提出三种评估范式(干预型、过程型和结果属性型)及新的可监测性度量标准,并构建了综合性评估套件。我们证明这些评估方法能有效识别经过训练以隐藏思维链的简单模型有机体,且在实际场景中思维链监测比仅监测行动更有效。通过比较各类前沿模型的可监测性,我们发现大多数模型具有相当程度但非完美的可监测性。我们还评估了可监测性如何随推理计算量、强化学习优化和预训练模型规模而变化。研究发现:更长的思维链通常具有更高可监测性;在当前前沿规模下,强化学习优化不会实质性降低可监测性。值得注意的是,对于低推理投入的模型,我们可以部署更小模型但提高其推理投入(从而保持能力相当)来获得更高可监测性,尽管这会增加总体推理计算成本。我们进一步研究智能体-监测器的规模扩展规律,发现增强弱监测器的测试时计算资源来监测强智能体时,可监测性会提升。赋予弱监测器思维链访问权限不仅能提高可监测性,还会使监测器的测试时计算资源与可监测性之间的扩展曲线变得更陡峭。最后,我们通过向模型提出后续问题并将其后续思维链提供给监测器,展示了提升可监测性的可行方法。

0
下载
关闭预览

相关内容

【ICML2025】大语言模型是自我示范预选择器
专知会员服务
12+阅读 · 6月9日
【ICML2025】通用智能体需要世界模型
专知会员服务
22+阅读 · 6月4日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【KDD2023】半监督图不平衡回归
专知会员服务
26+阅读 · 2023年5月24日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月19日
Arxiv
0+阅读 · 12月19日
VIP会员
相关VIP内容
【ICML2025】大语言模型是自我示范预选择器
专知会员服务
12+阅读 · 6月9日
【ICML2025】通用智能体需要世界模型
专知会员服务
22+阅读 · 6月4日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【KDD2023】半监督图不平衡回归
专知会员服务
26+阅读 · 2023年5月24日
相关资讯
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
相关论文
Arxiv
0+阅读 · 12月19日
Arxiv
0+阅读 · 12月19日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员