论文 | 百度「一次包会」模型：「一次性」教会Agent认新事物

2018 年 5 月 18 日 AI科技评论 刘鹏

百度 Research 在近日发表了一篇博文，介绍了通过交互式对话来教 AI 智能体学会语言和一次性实现主动概念学习的方法。

AI 科技评论按：打造能够通过语言与人类自然交流并向人类学习的智能体，对 AI 科技的进步而言价值重大。百度 Research 研究人员的目标就是，开发能够通过自然交互来向人类学习的 AI 智能体。

在雷锋网旗下学术频道 AI 科技评论的数据库项目「AI影响因子」中，凭借百度 PaddlePaddle 开源平台负责人王益专访、百度数据可视化实验室的成立及NLP 团队在微软 MARCO 阅读理解数据集上的突出表现、被ACL 2018 接收的论文「Interactive Language Acquisition with One-shot Visual Concept Learning through a Conversational Game」，排在「AI影响因子」前列。

百度曾在去年的 6 月份发表过一篇「Learning to Speak via Interaction」，该方法教 AI 智能体如何通过与一位虚拟老师的互动来学习说话。在一项最新的研究中，百度重点关注了虚拟老师与 AI 智能体之间的对话互动，这种互动既可以作为语言学习的自然途径，也可以作为学习新的知识的自然途径。百度提出的联合仿真和强化方法可以通过一个对话互动游戏，来训练 AI 智能体学习接地气的语言和进行快速概念学习。

用该方法训练的 AI 智能体可以提问关于新事物的问题以主动获得信息，并在随后的对话中使用刚刚学到的知识；这个学习过程是单样本学习的。AI 智能体的「主动」体现在，它能够主动向老师问关于未知事物的信息，与此形成对比的是目前大多数的 AI 智能体范例还只能被动地学习预先收集好的标签数据。「一次性」意味着，在部署之后，被老师教会过一次的 AI 智能体就可以在无需进一步训练的情况下，学会识别一个此前从未见过的事物并且还将能正确地回答老师针对该新事物提出的相关问题。

为了教会智能体认知新事物，百度在虚拟环境中搭建了一位老师来同 AI 智能体交谈。该虚拟环境与老师的设计灵感来自人类如何教婴儿学习语言和认知新事物的经历。在每一节课程的开头，虚拟老师会随机选择一个事物来与学生（AI 智能体）互动，并针对这个事物随机提出一个问题（如「它是什么」），然后保持沉默或者给出一个陈述语句（如「它是猴子」）。随后，老师将根据学生的回答来做出相应行为，要么回答智能体提出的问题，要么转向下一个随机事物再继续。老师也会依据 AI 智能体回答的适当程度提供给它一个鼓励或者不鼓励的奖励信号，例如，AI 智能体问关于新事物的信息的时候，或者在仅仅教了一次之后就能正确回答问题到时候，AI 智能体都会收到激励信号。

百度的该 AI 智能体始于新生儿般的白纸状态。它必须学会破解语言的奥秘并理解原始视觉和语言信号。AI 智能体只会通过与老师交流来评估自己的知识状态和记住有用的信息，与老师的交流包括听，冒泡，通过模仿进行学习以及通过老师的激励进行强化学习。经过最初的训练后，AI 智能体无需进一步的任何训练就能成功地将成熟的语言和「一次性」概念认知能力迁移至新的测试场景。

例如，经过动物数据集的训练后的 AI 智能体，在面对属于此前它从未见过的事物类别的一张樱桃图片时，AI 智能体能够问提问「它是什么」并且只需要被教会一次「这是樱桃」，在面对新的一张樱桃图像的时候也能正确回答其中是樱桃。

百度的下一步目标是进一步增加该语言学习任务的复杂性和多样性，以及研究该方法在其他相关任务上的应用和普遍性。该教学环境在百度自己的开源引擎 XWorld 模拟环境上运行，模型训练则在 PaddlePaddle 深度学习平台上完成的。更多细节，大家可以前往查看这篇 ACL 2018 的接收论文 https://arxiv.org/abs/1805.00462。

via 百度 Research，AI科技评论编译。

对了，我们招人了，了解一下？