AI智能体在开放环境中进行规划和执行交互。例如,OpenAI的Operator可以使用网页浏览器进行产品比较并购买在线商品。

关于使智能体既有用又安全的研究大多集中于直接修改它们的行为,例如通过训练它们遵循用户指令。直接的行为修改虽然有用,但并不能完全解决异质智能体如何相互交互以及与其他参与者互动的问题。相反,我们需要外部协议和系统来塑造这些交互。例如,智能体需要更高效的协议来相互沟通并达成协议。将智能体的行为归因于特定的个人或其他法律实体,可以帮助建立信任,并且也可以防止滥用。基于这一动机,我们提出了智能体基础设施的概念:技术系统和外部共享协议,旨在调节并影响智能体与其环境之间的交互及其影响。就像互联网依赖于像HTTPS这样的协议一样,我们的工作认为,智能体基础设施同样对于智能体生态系统至关重要。我们确定了智能体基础设施的三个功能:1)将行为、属性和其他信息归因于特定的智能体、其用户或其他行为者;2)塑造智能体之间的互动;3)检测并纠正智能体的有害行为。我们提供了一个不完全的研究方向目录,涵盖了这些功能的相关研究。对于每个方向,我们分析了用例、基础设施的采纳情况、与现有(互联网)基础设施的关系、局限性和未解问题。推进智能体基础设施的研究可以为社会准备采用更先进的智能体技术奠定基础。

1 引言

人工智能研究社区的一个基本目标是构建AI智能体:能够在开放环境中规划和执行交互的AI系统,例如拨打电话或在线购买商品(Maes, 1994; 1995; Lieberman, 1997; Jennings 等, 1998; Johnson, 2011; Sutton & Barto, 2018; Russell & Norvig, 2021; Chan 等, 2023; Shavit 等, 2023; Wu 等, 2023; OpenAI, 2018; Gabriel 等, 2024; Kolt, 2024; Lazar, 2024)。智能体与其他计算系统的不同之处有两个显著方面。首先,与用作聊天机器人的基础模型相比,智能体不仅仅与用户交互,还直接与世界进行交互(例如航班预订网站)。其次,与传统软件(例如排序算法的实现)相比,智能体能够适应不完全指定的任务指令。尽管人工智能社区已致力于开发智能体数十年,但这些智能体通常只执行狭窄范围的任务(Wooldridge, 2009; Mnih 等, 2013; Silver 等, 2018; Badia 等, 2020)。相比之下,最近基于语言模型构建的智能体可以尝试(尽管可靠性有所不同)(Kapoor 等, 2024; Liu 等, 2023; Mialon 等, 2023; Lu 等, 2024; Zhang 等, 2024)更广泛的任务,例如软件工程(Jimenez 等, 2024; Wu, 2024; Chowdhury 等, 2024)或办公室支持(Gur 等, 2024; MultiOn, 2024)。更通用的智能体可能会自动化一系列既有益又有害的任务。个性化的智能体可以帮助个人做出各种艰难的决定,例如选择购买何种保险或选择就读哪所学校(Van Loo, 2019; Sunstein, 2024; Lazar 等, 2024)。智能体在经济中的部署可能会带来生产力增长(Korinek & Suh, 2024)。然而,诸如缺乏可靠性、无法维持有效的监督或缺乏追责机制等障碍,可能会阻碍其有益的采用。另一方面,这些障碍对于有恶意动机的行为者来说可能并不关键。潜在问题包括诈骗(Fang 等, 2024b; Chen & Magramo, 2024)和大规模破坏数字服务(Fang 等, 2024a; Bhatt 等, 2023; 美国司法部, 2024)。

为了促进有益任务并减轻有害任务,许多AI研究集中于系统级干预,这些干预作用于AI系统本身,以塑造其行为。主要的研究方向包括目标指定与跟随(Hadfield-Menell 等, 2016; Christiano 等, 2017; Leike 等, 2018; Bai 等, 2022; Hua 等, 2024; Wang 等, 2024a;b; Kirk 等, 2024; Huang 等, 2024; OpenAI, 2024)、对抗性鲁棒性(Greshake 等, 2023; Tamirisa 等, 2024; Zou 等, 2024; Anil 等, 2024; Wallace 等, 2024)和合作(Lerer & Peysakhovich, 2019; Hu 等, 2020; Leibo 等, 2021; Dafoe 等, 2021)。如果采纳这些系统级干预(Askell 等, 2019),它们可以帮助提高智能体的可靠性,但可能不足以促进其有益采用或减轻风险。例如,实现对抗性鲁棒性的困难可能意味着公司在采纳智能体来完成具有经济价值的任务时,需要更多的保证。特别地,潜在的保证机制包括智能体认证、保险或身份解决方案,它们可以在不同方之间建立信任。此类工具塑造了智能体与机构(例如法律和经济系统)及其他行为者(例如网页服务提供商、人工智能智能体等)之间的交互。

鉴于系统级干预的不足,我们提出了智能体基础设施的概念:外部技术系统和共享协议,旨在调解并影响智能体与其环境之间的交互及其影响。这些系统和协议可以是新颖的,也可以是现有系统和协议的扩展。智能体基础设施的例子包括智能体之间的通信协议(Marro 等, 2024)、智能体的ID(Chan 等, 2024b)、智能体属性或行为的认证系统,以及回滚智能体行为的方法(Patil 等, 2024)。我们在表1中列出了更多的例子。我们的智能体基础设施概念并不涉及使智能体能够基本操作的技术系统(例如内存系统、云计算),尽管它通常会基于或修改这些系统。此外,虽然我们的讨论将以基于语言模型的智能体为基础,但智能体基础设施的核心思想大多不依赖于架构,并且扩展了现有的计算科学、经济学和社会科学的研究(Wooldridge, 2009; Perrier, 2025)。 为了进一步理解智能体基础设施与系统级干预之间的区别,可以将交通安全作为类比。如果我们将人类驾驶员类比为AI智能体,系统级干预包括驾驶员培训计划。基础设施则包括交通信号灯、环形交叉路口、应急车道和摄像头监控的限速。我们在表2中提供了更多的比较。

就像互联网依赖于TCP(Eddy, 2022)、HTTPS(Fielding 等, 2022)和BGP(Rekhter 等, 2006)等基础设施一样,我们认为智能体基础设施可能对于解锁智能体的好处并管理其风险至关重要。以解锁好处为例,将智能体的行为与用户绑定的协议可以促进问责,从而降低智能体采用的障碍。类似地,能够通过HTTPS进行安全的金融交易使得数万亿美元的电子商务市场成为可能(Statista, 2024)。作为管理风险的例子,智能体基础设施可以支持系统级干预。例如,智能体认证系统可以警告其他行为者(例如其他智能体),不要与缺乏某些保障措施的智能体互动,就像浏览器标记非HTTPS网站一样。通过这种方式,智能体基础设施可以利用智能体的交互作为杠杆点来提高安全性:限制智能体的交互也限制了智能体的潜在负面影响。 本文识别了智能体基础设施可以发挥的三项功能:1)将行为、属性和其他信息归因于特定智能体或其他行为者;2)塑造智能体的互动;3)检测并纠正智能体的有害行为。我们提出了可以帮助实现每个功能的基础设施,包括用例分析、采用情况、局限性和未解问题。我们的建议主要针对可能希望构建智能体基础设施的研究人员和开发者。这些建议对于可能希望支持其建设的政府或资助机构也可能有用。

成为VIP会员查看完整内容
1

相关内容

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支。
军事AI决策支持系统典型项目
专知会员服务
27+阅读 · 6月15日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
98+阅读 · 1月5日
自动驾驶中的多智能体强化学习综述
专知会员服务
45+阅读 · 2024年8月20日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
127+阅读 · 2024年2月6日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
34+阅读 · 2022年8月1日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
【NeurIPS 2020】图神经网络GNN架构设计
专知会员服务
84+阅读 · 2020年11月19日
ICLR'21 | GNN联邦学习的新基准
图与推荐
11+阅读 · 2021年11月15日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
20+阅读 · 2022年10月10日
Arxiv
23+阅读 · 2022年2月4日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
VIP会员
相关VIP内容
军事AI决策支持系统典型项目
专知会员服务
27+阅读 · 6月15日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
98+阅读 · 1月5日
自动驾驶中的多智能体强化学习综述
专知会员服务
45+阅读 · 2024年8月20日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
127+阅读 · 2024年2月6日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
34+阅读 · 2022年8月1日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
【NeurIPS 2020】图神经网络GNN架构设计
专知会员服务
84+阅读 · 2020年11月19日
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
11+阅读 · 2021年11月15日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
20+阅读 · 2022年10月10日
Arxiv
23+阅读 · 2022年2月4日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
微信扫码咨询专知VIP会员