论文“Socially situated artificial intelligence enables learning from human interaction”已发表在美国科学院院刊(PNAS)上。论文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119在这项工作中,研究团队将社会化 AI 形式化为一个强化学习的过程,即智能体通过从社会互动中获取的奖励来学习识别有信息量的问题。在一个视觉问答任务的测试中,与其他智能体相比,社会化智能体识别新视觉信息的性能提高了 112%。
社会化 AI 的强化学习框架
目前,在迭代扩展模型能力时,主动学习是最常用的一个框架。它的目标是优化一系列标注请求以获取新的数据,并将新数据用于以尽可能少的请求来提高模型的性能。主动学习已经被形式化为强化学习的过程,其中,真正的人类角色被移除,只假设存在一个能为所有请求提供标签的「预言机」。尽管纯粹的主动学习方法也可以通过社会环境中的互动来收集新数据,但从用户角度看,他们并不愿意充当「预言机」的角色来做重复提供标签的劳动,这就打破了主动学习的基本假设。所以,我们必须探索智能体真正与人交互的学习方法。要开发社会化的 AI,智能体不仅要收集数据来学习新概念,还要学习如何与人互动来收集数据。而且,智能体必须要在交互学习(interacting to learn)和学习交互(learning to interact)这两个目标之间进行权衡。这非常具有挑战性,因为智能体要遍历的可能交互空间是巨大的,只有一部分社会交互空间是有用的,并且信息交互空间还会随着智能体的学习进程而不断变化。在强化学习中,我们将可能的交互形式化为行动空间,将反馈形式化为奖励,需要数亿次交互才能获得具有信息量和亲社会的交互的子空间,这让很多研究人员望而却步。所以,目前从与人类交互中学习的方法,通常只局限于人工标注或者小的工作空间(如只有几十个动作的游戏和仿真环境)。为此,研究团队将社会化的 AI 形式化为一个迭代强化学习问题。社会化 AI 的强化学习框架其框架描述如下:一个智能体被放置在社会环境 E=(S,A,P,P0) 当中,它的目标是收集数据,以尽可能少的交互来优化模型的性能;S 是环境状态,如对话智能体的对话历史,或机器人智能体在三维世界中当前位置;A 是智能体可以发起的与人交互的可能空间,如对话智能体可以询问的一组语句,或机器人智能体可以执行的一组动作。;P:S × A → S 是过渡动力学(transition dynamics),如使用过渡函数(transition function)编码人们对智能体历史行为的反应以及环境的变化。;最后,P0 是初始状态分布的概率测度。总结而言,这样一个迭代强化学习的过程包括三个重要的方面:改进底层模型、发现社会规范、更新交互策略。它们贯穿着智能体的整个生命周期。其中,智能体在人们可能会或可能不会做出信息回应的社会环境中与人进行互动,从而改进底层模型。只有当人的回应包含对智能体有用的新信息时,回应才是有用的。因此,智能体必须与环境中数十万人的单次交互,从中选择能够引发对模型有用的新概念的社会互动。为了平衡智能体的交互学习和学习交互两个目标,我们可以引入知识奖励(knowledge reward)来引导智能体进行交互以获得有用的新概念;同时采用交互奖励(interaction reward)来引导智能体进行符合环境中社会规范的交互。在使用新概念改进模型的基础上,智能体会更新其策略,开始学习如何就人们有兴趣回应的新概念提出问题,来改进自身性能还比较差的部分。
从问答互动中改进视觉模型
为了验证社会化 AI 框架在计算机视觉中的实用性,作者在照片共享社交网络应用 Instagram 上部署了一个社会化智能体,它向人们提出自然语言问题,并从人的回应中提取答案,收集视觉知识。这种使用自然语言来获取视觉知识的方法,可以用来测试很多计算机视觉识别任务,如对象检测(图像中有什么?)、细粒度识别(花瓶里是什么花?)、属性分类(这张桌子是用什么材料做的?)、知识库推理(这份食物是素食吗?)和常识推理(这张照片是在冬天拍摄的吗?)等等。在这项工作中,研究团队设计了一个计算机视觉问答模型,其输入是一张图像和相应的自然语言问题,输出是一个自然语言答案。智能体提出的问题非常多样,如下图。社会化智能体在社交媒体上发起的互动示例智能体的目标是从与人的交互中获得数据,提高模型识别视觉概念的能力。为了达到这个目标,智能体需要一些「奖励」。如上文所述的框架,作者引入了知识奖励和互动奖励。知识奖励衡量模型的在识别任务中的确定性。在刚开始,识别模型不知道如何识别任何概念,但随着看到的特定概念的增长,它会对自己的判断更加肯定。比如,如果人们帮助智能体将图像中的动物识别为鹿,那么它的不确定性就会减少。交互奖励则引导智能体的行为符合社区规范。如在社交网络中,人们更喜欢回答较短的问题、提供事实知识以及回避含糊不清的问题。所以智能体的每一次交互都会被标记为积极(产生了新信息)或消极(未获得新信息),从而被不断训练成亲社会的。最后,是如何寻找有用的语言交互问题。这是一个组合性的搜索问题。一种直接的方法可以将智能体的策略设计成一个从图像到提问的生成模型。随着模型性能的提升,信息交互的空间会不断变化,因此组合搜索过程需要反复重复。为了使搜索过程更易于处理,作者使用现有的信息最大化变分自动编码器来学习现实中人与人交互的表示:通过重新配置策略将输入图像映射到表示空间中,并通过设计解码器从表示空间映射到单词序列。