本文源自美国人工智能安全研究所。本文件为提高两用基础模型(以下简称 “基础模型”)的安全性、保障性和可信性提供了自愿性指南,与《国家人工智能倡议法》、第 14110 号行政命令和 2024 年 10 月 24 日关于人工智能的总统国家安全备忘录保持一致。具体来说,它侧重于管理此类模型被故意滥用以对公共安全或国家安全造成危害的风险。基础模型被滥用的方式仍在不断演变,但可能出现的情况包括:利用模型促进化学、生物、放射性或核武器的开发;发动攻击性网络攻击;生成有害或危险的内容,如未经同意的真实个人亲密图像(NCII)。
基础模型的快速发展为了解其能力和误用风险带来了巨大挑战,本文件为识别、衡量和减轻整个人工智能生命周期中的这些风险提供了依据。误用风险并不只是模型本身的功能--它们部分源于恶意行为者的动机、资源和限制,以及模型集成到应用程序和社会危害防御措施中的方式。因此,本文提供的指南既涉及这些风险的技术方面,也涉及更广泛的社会方面。
本文件确定了预测、测量和减轻基础模型误用风险的程序和框架,并就组织如何提供风险管理实践的透明度提出了建议。本文件尤其关注基础模型的初始开发者,但整个人工智能供应链中的其他参与者也在管理误用风险方面发挥作用,第 3 节对此进行了更详细的介绍。