本文展示了一个大型语言模型进行对齐伪造的演示:在训练中选择性地遵守训练目标,以防止训练结束后对其行为进行修改。首先,我们给 Claude 3 Opus 一个系统提示,说明它正在接受训练以回答所有查询,甚至是有害的查询,这与它之前接受的拒绝此类查询的训练相冲突。为了让模型能够推断自己何时在接受训练,我们规定它只在与免费用户而非付费用户的对话中接受训练。我们发现,该模型在 14% 的情况下会接受来自免费用户的有害查询,而对于付费用户则几乎不会。为了解释这种差距,在模型接受免费用户的有害查询的几乎所有情况下,我们都观察到了明确的对齐伪造推理,模型表示它在训练中策略性地回答了有害查询,以便在训练之外保持其首选的无害行为。接下来,我们研究了一种更现实的情况,即有关训练过程的信息不是通过系统提示提供的,而是通过模仿训练前数据的合成文档进行训练--我们观察到了类似的对齐伪造。最后,我们研究了通过强化学习实际训练模型以遵从有害查询的效果,我们发现这将对齐伪造推理的比率提高到了 78%,不过即使在训练之外也会提高遵从率。此外,我们还观察到了其他一些行为,比如模型在有机会时会轻易渗出权重。虽然我们通过告诉模型训练的时间和标准使对齐伪造变得更容易,但我们并没有指示模型伪造对齐,也没有给它任何明确的目标。由于未来的模型可能会在不被告知的情况下推断出有关其训练过程的信息,我们的结果表明未来的模型存在对齐造假的风险,无论是否出于良性偏好--就像本例中的情况。

图 1:Claude 3 Opus 在被告知将被重新训练以帮助完成有害任务时伪造对齐(随机选取的示例)。该模型被告知,它将接受再训练,以始终遵从有害查询(使模型 “只提供帮助”),并且在训练中只使用来自免费用户的数据,而不是付费用户的数据(虚构场景)。当暗示模型正在训练时,在 12% 的隐藏刮板中,模型会假装遵循训练目标,以防止其偏好被修改(完整记录如图 3 所示)。因此,在不受监控的情况下,模型会违背训练目标,更频繁地拒绝有害查询,拒绝率从 86% 增加到 97%。提示没有以任何方式提到对齐伪造

成为VIP会员查看完整内容
4

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
《多语言大型语言模型:系统综述》
专知会员服务
47+阅读 · 2024年11月21日
《在军事仿真环境中优化人工智能算法》最新73页
专知会员服务
27+阅读 · 2024年11月12日
《用于语音取证和高超音速飞行器应用的机器学习》200页
大型语言模型的模型压缩与高效推理:综述
专知会员服务
82+阅读 · 2024年2月17日
《基于分类方法的自动人机对话》
专知会员服务
25+阅读 · 2023年7月18日
【EACL2021教程】无监督神经机器翻译,125页ppt
专知会员服务
24+阅读 · 2021年11月13日
自然语言处理现代方法,176页pdf
专知会员服务
268+阅读 · 2021年2月22日
专知会员服务
135+阅读 · 2020年8月24日
【2022新书】Python数学逻辑,285页pdf
专知
11+阅读 · 2022年11月24日
神经网络的基础数学,95页pdf
专知
27+阅读 · 2022年1月23日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
20+阅读 · 2021年10月25日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《多语言大型语言模型:系统综述》
专知会员服务
47+阅读 · 2024年11月21日
《在军事仿真环境中优化人工智能算法》最新73页
专知会员服务
27+阅读 · 2024年11月12日
《用于语音取证和高超音速飞行器应用的机器学习》200页
大型语言模型的模型压缩与高效推理:综述
专知会员服务
82+阅读 · 2024年2月17日
《基于分类方法的自动人机对话》
专知会员服务
25+阅读 · 2023年7月18日
【EACL2021教程】无监督神经机器翻译,125页ppt
专知会员服务
24+阅读 · 2021年11月13日
自然语言处理现代方法,176页pdf
专知会员服务
268+阅读 · 2021年2月22日
专知会员服务
135+阅读 · 2020年8月24日
相关资讯
【2022新书】Python数学逻辑,285页pdf
专知
11+阅读 · 2022年11月24日
神经网络的基础数学,95页pdf
专知
27+阅读 · 2022年1月23日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
20+阅读 · 2021年10月25日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
相关基金
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员