数字世界中的大模型Agent：机遇与风险

导语

语言智能体（Language Agent），即以大语言模型技术为基础的智能agent。如果负责任地部署，语言智能体对于通用人工智能（AGI）和大规模自动化现有人力劳动将具有巨大潜力，或许能开启新时代的可扩展人工智能与人类合作。然而，像所有新技术一样，我们也需要关注并有效减轻随之而来的风险，以避免不希望出现的结果。********************

研究领域：语言智能体，通用人工智能，自动化社会******************************************************************** Shunyu Yao****** | 作者刘培源******** | 译者**********

本文翻译自 https://princeton-nlp.github.io/language-agent-impact/

虽然2022年是让像ChatGPT这样的语言模型引起公众关注的一年，但2023年见证了语言智能体（agent，也称主体）的崛起。《ReAct》和《Toolformers》等论文以及《LangChain》和《ChatGPT Plugins》等框架展示了语言模型可以与网页、软件、工具和API相连接，通过计算工具和定制的最新信息源增强它们的功能。这种能够行动并影响世界的能力使得语言模型可以应用于更广泛的领域，超越传统的语言处理。例如，通过导航网站获取信息，控制像Excel这样的软件，或者进行带有执行反馈的交互式编程。

本文所称“语言智能体”，即以大语言模型技术为基础的智能agent

将这些机器仍然称为“语言模型”（其优化目标是预测下一个token）会显著低估它们的能力，因为它们正在演变成能够使用语言作为主要媒介解决通用数字任务的自主智能体——简而言之，在数字世界中的“语言智能体”。

尽管关于语言智能体的演示和论文看起来令人兴奋，但这对于人工智能和社会的未来意味着什么？本博客文章旨在提供我们对这个问题的见解，并引发围绕语言智能体开发中固有机会和风险的讨论。对于这些智能体的技术概述，请查阅Lilian Weng所写的出色博客文章。此外，关于语言智能体还有更多论文、博客文章、基准测试和其他资源，请访问我们的资料库。https://github.com/ysymyth/awesome-language-agents

数字世界中的语言智能体：

通用人工智能的新前景

人工智能长期以来的目标是创建能够智能地与环境互动以实现特定目标的自主智能体。强化学习（RL）是一个解决这些挑战的强大框架，有着如AlphaGo和OpenAI Five等著名的成功案例。然而，强化学习始终困扰于缺乏归纳偏见和环境限制的问题。人类视觉-运动或物理先验的注入一直具有挑战性，这意味着强化学习模型常需要数百万次交互从零开始训练。因此，在物理、真实世界环境中学习一直充满挑战，毕竟机器人交互速度慢且收集成本高昂。这也解释了为何主要的强化学习成功案例发生在游戏中——那里的模拟快速、廉价，但同时也存在封闭、有限领域的问题，难以转移到复杂真实世界智能任务之上。

与物理或游戏环境进行交互的智能体面临可扩展学习或实际应用的挑战（上图），而与数字世界进行交互的智能体则同时享受这两种好处（下图）。

虽然物理环境和游戏世界各有其局限，但数字世界（以语言为主要载体）提供了独特的可扩展环境和学习优势。例如，WebShop是一个拥有数百万种产品的购物网站环境，其中智能体需要阅读网页、输入查询并点击按钮来进行购物，就如同人类一样。这样的数字任务挑战了智力的多个方面，包括视觉理解、阅读理解和决策制定，并且可以轻松扩大规模。这也为引导智能体使用经过预训练的先验知识进行微调提供了机会——大型语言模型的提示可以直接应用于WebShop或任何ChatGPT插件任务，这在传统的强化学习领域是难以实现的。随着更多API被整合到环境中，将会出现一个极其多样化、开放性极高的数字工具和任务生态系统，催生出更通用、更有能力的自主语言智能体。这将为通向通用人工智能之路开辟新方向。

自动化社会的巨大潜力

一台能自主行动的机器在各个领域都有巨大的潜力来减轻人类的劳动负担。从机器人吸尘器到自动驾驶汽车，这些机器通常被部署在物理环境中，配备任务专用算法和应用范围较窄。而另一方面，像ChatGPT插件和Microsoft 365 Copilot这样的语言智能体则提供了通用解决方案，用于自动化广泛的数字任务，尤其在当前大部分人类生活和工作都在数字化环境中进行的时代，这一点尤为重要。

在涉及95人的研究中，我们可以瞥见即将到来的革命——Github Copilot将平均编码时间缩短了50%以上。然而，Github Copilot只是初步提供建议性操作——一个更加自主、能够反复写代码、运行并利用自动环境反馈（如错误信息）调试代码的智能体正在崭露头角。

设计师、会计师、律师以及任何与数字工具和数据打交道的职业都可能产生类似情况。更进一步说，考虑到通过物联网连接物理世界与数字世界，语言智能体可以与物理环境进行互动，远超过Alexa简单的功能，如“开灯”。例如，借助云机器人实验室服务，语言智能体可能参与到繁琐的决策循环中，用于自动药物发现：读取数据、分析洞察、设定下一次实验参数、报告潜在结果等等。

语言智能体的工作自动化机会及其能力的阶梯。

面对无穷无尽的可能性，我们应如何进行分类呢？这似乎并没有唯一的答案，正如人类工作可以从多个维度进行分类或组织一样（薪资水平、工作环境、知识水平、通用与专业等）。在此，我们想提出一个基于智能体能力的三步渐进式阶梯。

• 第一步：增强繁琐数字劳动的鲁棒性（robustness）：像与网页和软件交互来填写各种表格、重复的Excel操作或客户支持任务，或者修复代码错误等任务，都涉及到多轮信息查找和试错。这些数字活动（除了编码外）只需要几小时的培训就能让新手上路，然而对人类来说却是重复且枯燥的，同时也可能因疲劳造成错误。同样地，自动化这些工作似乎并没有根本性障碍。向GPT-4提供几个示例就可以在许多此类简单任务上达到合理的表现。然而，要达到人类级别的可靠性和安全性仍然是一个挑战（见下文）。一旦实现这一点，预计这些工作中相当部分将会被自动化，可能标志着由语言智能体驱动的自动化浪潮的初次兴起。

• 第二步：提升需与数字工具及人类互动工作的协作和沟通技巧：这类任务包括在查询和记录信息的同时进行销售、扮演项目经理角色进行会议记录和任务委派，或者作为个人助手在各种数字平台上协同工作并记录用户偏好。这些任务不仅需要执行各种数字例行程序的鲁棒性，还需要类似人类的沟通技巧（例如语用学、心理理论、个性理解等），以确保与人类（或智能体）合作伙伴能够成功并持久合作。培养这样的技能并获得人类的信任也是一个逐步过程，就像为越来越复杂的数字工作提高智能体鲁棒性一样。 • 第三步：探索创新或知识领域：包括访问在线文献和其他信息来起草报告；通过在知识网络中导航来调查研究领域并提出研究想法；通过与逻辑环境（如Coq）交互来发现数学知识。这些创造性工作类似于科学家、艺术家、作家的工作，除了需要强大的数字和沟通技巧（如何搜索、如何交流想法并纳入反馈等），还需要内在的动力来为自己定义任务并追求长期、稀缺回报的探索。

Coq机器证明助手 https://coq.inria.fr/ 这样的阶梯也对应着不同级别的任务模糊度和奖励稀缺性：从明确的指令和清晰的任务完成信号，到考虑上下文的、含蓄的人类意图以及实际的人类反馈推断，再到带有内在奖励信号的自我定义任务。研究后者的能力不必等待前者，但工业化部署可能会按照这种由易至难的顺序进行。

平衡进步与安全

鲁棒性、恶意使用、工作不安全和存在风险等问题。尽管历史对前三个问题有所启示，但存在风险却不太被理解且更加未知。自动化的所有进步也必然会引发一些担忧，从人们失去工作到存在的危机。我们看到了四种潜在问题需要在语言智能体崛起时得到解决： • 现实世界应用的鲁棒性：相比于文本生成或问题回答等大语言模型应用，智能体自主采取行动所构成的风险更高，因为它们的行动直接影响世界——如删除文件或执行交易，并且可能以极快的速度大规模展开。任何小错误都可能造成重大后果，并可能在造成巨大损害前未被察觉。 • 恶意使用：能够完成复杂任务的语言智能体也意味着存在更大的恶意使用潜力，如攻击网站、设计复杂的钓鱼计划甚至释放核武器——任何可能利用计算机进行的邪恶黑客行为。这将需要对当前防御措施进行全面改革，这些防御措施主要是确定性的，并依赖于简单测试如验证码。黑客还可以将恶意代码注入网站或其他应用程序，使得在其上运行的良性智能体以非预期方式出现问题，例如泄露社保号码或信用卡号等敏感信息。 • 取代人类工作：如同以往的技术进步，语言智能体的出现必然会导致某些职业岗位被取代，同时也会带来新的就业机会，正如汽车的出现使马车夫转变为司机一样。当前某些类型的人类工作可能会消失，而演化为更抽象的形式，在这种情况下，人类将监督一个智能体团队以更高效地完成相同任务。 • AGI与存在风险：在极端情况下，自主智能体也代表了朝向能够在广泛领域以人类智能水平执行复杂任务的AGI系统迈出的重要一步。这可能对人类构成存在风险，尤其是当智能体被赋予改变世界的控制权时。

如何应对这些风险

解决语言智能体（以及人工智能总体上）的安全问题需要开发人员、研究人员、教育工作者、政策制定者甚至人工智能系统等多方合作和多层次努力。上述问题正在积极讨论中，并未有定论，但我们可以从历史的角度和批判性思维来共同评估它们。

通过防护措施与校准提升鲁棒性：增强语言智能体的鲁棒性是一个关键的步骤，需要实施有效的防护措施和校准机制。当前，基本的安全措施如沙盒化或对智能体行动空间的启发式限制（例如 OpenAI 将 ChatGPT 插件限制为在网上进行 GET 请求，或在 CodeX 中禁用 Python 的 os 函数）被采用以阻止不安全行为或错误扩散。然而，随着语言智能体越来越自主并在更复杂的行动空间中运作，确保其安全性变得更具挑战性。针对这个问题，我们可以探索几个可能的路径： • 人类参与以增强信任：实施逐步且谨慎的部署策略，包括人类的监督和对齐导向流程。这涉及让人工审核员或监督员在语言智能体部署期间参与监控和指导其行为。通过融入人类的判断和专业知识，可以及时识别和减轻潜在风险和意外后果。这种做法符合“人在循环”系统的研究方向。 • 针对最坏结果给出正式保证：探索开发正式保证，确保语言智能体在特定行动空间内的行为始终处于可接受范围。借鉴对抗性强化学习研究的启示，其中开发了技术来防御RL智能体面临的对抗性攻击，可以改编相似方法为语言智能体提供安全性和鲁棒性的正式保证。通过设定智能体行动的边界和限制，可以减轻最坏情况带来的影响。 • 基于提示的行为指引，如Constitutional AI模型：采用受法律框架（如宪法）启发的基于提示的行为准则。通过训练语言智能体遵循符合伦理原则和指引的特定提示指令，可以引导智能体的行为与社会规范相一致。这种方式涉及为语言智能体定义明确且具体的规则，以保证其负责任和道德的行为。

Constitutional AI https://arxiv.org/abs/2212.08073

通过监管防止恶意使用：对大语言模型及其应用的负责所有权、控制和监督至关重要。除了对鲁棒性和保护的技术解决方案，还需要制定法律、规定和政策来管理它们的部署。例如，OpenAI提出了一种针对巨大模型的许可系统，这个想法可能很快在中国等国家得到实施。此外，可以建立严格的数据权限协议和规定，以防止滥用和未经授权获取敏感信息。同时，也需要考虑潜在的犯罪行为，并据此设立惩罚措施，借鉴加密货币犯罪及其法律后果的经验。

OpenAI许可系统 https://www.bloomberg.com/news/articles/2023-07-20/internal-policy-memo-shows-how-openai-is-willing-to-be-regulated

就业影响与教育政策需求：面对（可能出现的）就业危机，实施全面教育和政策举措至关重要。通过装备个人适应变化环境所需的技能和知识，我们可以推动语言智能体顺利融入各行各业。这可以通过教育项目、职业培训和再技能培养计划实现，以备劳动力迎接技术驱动未来所需求。
通过理解和研究管理存在性风险：在采取进一步行动之前，深化对语言智能体及其影响的理解至关重要。这涉及到对这些模型的运作机制、限制和潜在风险的深入理解。此外，建立可扩展的监督机制以确保负责任的部署并预防潜在滥用也极为重要。一种方法是利用语言智能体自身来监控和评估其他语言智能体的行为，从而主动发现并减轻任何有害后果。推动在语言智能体领域的进一步研究将有助于我们更全面地了解它们的安全影响，并协助社会发展出有效的保障措施。

最后的思考

如果负责任地部署，语言智能体对于通用人工智能和大规模自动化现有人力劳动而言，具有巨大潜力，或许能开启新时代的可扩展人工智能与人类合作。然而，像所有新技术一样，仍存在必须立即关注并有效减轻的风险，以避免不希望出现的结果。我们相信这篇博文只是一个起点，并期待社区讨论和共同努力，以安全地推进语言智能体的发展。

成为VIP会员查看完整内容