随着人工智能(AI)在各类应用中的日益普及,能够在不断变化、开放式的世界中成功导航并适应的智能体变得愈发重要。一个关键挑战在于确保这些 AI 智能体具备鲁棒性,不仅能在训练过程中观察到的熟悉环境中表现出色,还能够有效泛化到先前未见、具有多样性的全新情境中。在本论文中,我们结合开放式生成(open-endedness)和多智能体学习的方法,训练并评估能够在新环境、分布外输入,以及与其他协同玩家智能体互动中实现泛化的鲁棒 AI 智能体。
我们首先介绍 MiniHack,一个基于程序化内容生成(procedural content generation)的沙盒框架,可用于构建多样化的环境。MiniHack 源自 NetHack 游戏,使研究者能够为强化学习(RL)智能体构建聚焦于泛化能力的新任务。随后,我们提出 Maestro,一种新颖的方法,用于生成对抗式课程,以在双人零和博弈中逐步提升 RL 智能体的鲁棒性与泛化能力。
接着,我们在多智能体领域进一步探究鲁棒性,采用质量-多样性(quality-diversity)方法系统地识别复杂足球电子游戏领域中最先进的预训练 RL 策略的脆弱性。该领域兼具协作与对抗动态,使得策略的鲁棒性分析更加具有挑战性。最后,我们将鲁棒性研究扩展至大型语言模型(LLMs)。在这一部分中,我们重点诊断并提升 LLM 面对对抗提示(adversarial prompts)时的鲁棒性,通过进化搜索生成多样且有效的输入,以诱导 LLM 产生不期望的输出。
总体而言,本论文为未来 AI 鲁棒性的发展奠定基础,使智能体不仅能够适应不断演化的世界,还能够在面对未知挑战与交互时保持卓越表现。