The field of AI Control seeks to develop robust control protocols, deployment safeguards for untrusted AI which may be intentionally subversive. However, existing protocols that rely on weaker monitors to detect unsafe behavior often fail on complex tasks beyond the monitor's comprehension. We develop control protocols based on factored cognition, in which a trusted model decomposes a task, an untrusted model solves each resultant child task in isolation, and the results are reassembled into a full solution. These protocols may improve safety by several means, such as by simplifying the context for monitors, or by obscuring vulnerabilities in the environment. We implement our protocols in the APPS coding setting and red team them against backdoor attempts from an adversarial GPT-4.1 Nano. We find that: (i) Adding factored cognition to a trusted monitoring protocol can boost safety from 41% to 63%; (ii) Safety improves because monitor performance improves; (iii) Factored cognition makes it no harder for capable LLMs to write backdoors in APPS. While our protocols show low usefulness in APPS, they hold promise for more complex tasks.


翻译:人工智能控制领域致力于开发鲁棒的控制协议与部署保障机制,以应对可能具有蓄意颠覆性的不可信人工智能系统。然而,现有依赖较弱监控器检测不安全行为的协议,在任务复杂度超出监控器理解范围时往往失效。本研究基于分解式认知构建控制协议:由可信模型将任务分解,不可信模型独立求解各子任务,最终将结果重组为完整解决方案。此类协议可通过多种途径提升安全性,例如简化监控上下文或遮蔽环境中的脆弱性。我们在APPS编程环境中实现协议,并针对对抗性GPT-4.1 Nano的后门攻击进行红队测试。研究发现:(1)在可信监控协议中引入分解式认知可将安全性从41%提升至63%;(2)安全性提升源于监控性能的改善;(3)分解式认知未增加高性能大语言模型在APPS中植入后门的难度。尽管当前协议在APPS场景中实用性有限,但其在更复杂任务中具有应用潜力。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员