999,990 最高分如何炼成？多 AI 智能体协作通关最难游戏

2017 年 6 月 28 日 新智元

新智元推荐

来源：微软研究院 AI 头条

【新智元导读】微软的研究人员在近期创建了一套基于人工智能的系统，以学习如何在 20 世纪 80 年代风靡一时的电子游戏“吃豆小姐”中获得最高分。该系统运用了“分而治之”的方法，可广泛用于对 AI 代理（agents）进行训练，使之掌握能够增强人类能力的复杂任务。

微软的研究人员在近期创建了一套基于人工智能的系统，以学习如何在20世纪80年代风靡一时的电子游戏“吃豆小姐”中获得最高分。该系统运用了“分而治之”的方法，可广泛用于对 AI 代理（agents）进行训练，使之掌握能够增强人类能力的复杂任务。

来自微软今年早些时候收购的加拿大的深度学习初创企业Maluuba团队使用增强学习的技术，在Atari 2600版“吃豆小姐”游戏中表现完美，获得了999,990的历史最高分。

蒙特利尔麦吉尔大学计算机科学副教授Doina Precup表示，这是AI研究人员的重大成就。过去他们一直在用各类电子游戏对系统进行测试，发现“吃豆小姐”是其中最难攻克的。但是，Precup同时表示，令她印象深刻的不仅仅是研究人员所取得的成绩，更在于他们所采取的方法。为了获得高分，Maluuba团队把“吃豆小姐”打通关这个终极任务拆分成了多个小任务，然后再分配给多个AI代理。

“这种让它们（AI代理）朝着一个共同目标分工协作的想法非常有趣，”Precup说。她指出，这一点与某些有关大脑工作机理的学说颇为类似，并且有可能在训练AI代理凭借有限信息完成复杂任务方面产生广泛影响。她说：“这真是非常令人兴奋，我们又朝着更加通用的人工智能迈进了一步。”

Maluuba团队将这种方法称为“混合奖励结构（Hybrid Reward Architecture）”，其中使用了150多个代理，每个代理都能与其他代理并行工作，以掌握“吃豆小姐”游戏的玩法。例如，一些代理成功找到某个特定“豆子”时会获得奖励，而另一些代理则被指定负责设法避开“鬼怪”。

接着，研究人员创建了一个上层代理——就像一家企业的高级经理，负责从所有其他代理处收集建议，并据此决定下一步如何移动吃豆小姐。上层代理会计算主张向某个方向前进的代理的数量，但也会考察了它们希望采取行动的愿望强度。

例如，假设100个代理希望向右移动，因为这是通向某个豆子的最佳路径，但是另外3个代理希望向左移动，因为右方有一个致命的鬼怪，那么上层代理会提高那些注意到鬼怪的代理的愿望权重，并决定向左移动。

Maluuba 公司的研究经理 Harm Van Seijen，同时也是关于这项成就的新论文的主要作者，他表示，当每个代理都自发地采取行动时，就会实现最好的结果。例如，其它每个代理只关注获取豆子的最佳方式，而由上层代理决定如何运用来自各个代理的信息，做出对每个人都最有利的选择。

他说：“一方面它们要设法根据所有代理的偏好展开合作，但另一方面每个代理又只关心一个特定问题，这样就产生了良性互动，对大家都有好处。”

为什么选择“吃豆小姐”游戏？

你可能觉得很奇怪，竟然需要用最先进的AI研究方法来对付上个世纪80年代Atari游戏这样看似简单的玩意儿。但是，Maluuba公司项目经理Rahul Mehrotra表示，搞清楚如何在这类电子游戏中胜出实际上是相当复杂的，因为在玩游戏时你可能遇到各种各样的情况。

Mehrotra说：“在游戏中取胜需要很多与人类十分相似的‘智力’，所以很多从事AI研究的公司都使用电子游戏来构建智能算法。”

“吃豆小姐”游戏街机版的共同发明者之一Steve Golson说，这款游戏入门很简单但打通关却几乎不可能，因为它最初是针对街机设计的，店老板们总是希望人们不断地往里面投币。“店家希望玩家们觉得，‘哦，哦，我差一点就打通关了！我要再试一次，”Golson说。“再投一个币。”

Golson表示，几个月前当他得知“吃豆小姐”被广泛地用作人工智能研究的“检测场”时，异常兴奋。

不过，现在已经身为Trilobyte Systems咨询公司负责人的Golson说，他们当初设计“吃豆小姐”时有意让她比普通的“吃豆人”更难以预测，让玩家更难打通关。而这使得它成为研究人员训练AI代理对随机环境做出反应的理想环境。

“这款游戏看起来很简单，”他说，“但由于游戏中的各种随机情况，其复杂性又十分惊人。”

增强学习

对于在不断发展的增强学习领域从事研究工作的人来说，这种不可预测性是特别有价值的。在AI研究中，监督学习是一种更为常用的人工智能方法，通过用越来越多包含“正确行为”的样本训练系统，使其会变得越来越擅长从事某种工作。

而增强学习的原理却大相径庭。通过增强学习，代理所尝试做出的每个动作都会获得积极或消极的反馈，并从尝试和试错中不断学习，以最大限度地获得积极反馈，或称之为奖励。

采用监督学习的 AI 系统，将通过学习好的或差的的回应示例，学会在对话中给出适当回应。另一方面，对于采用增强学习方法的系统，人们期望它仅从高级别反馈（例如一个人表示自己很喜欢当前对话）中学习适当的回应，这项任务的难度要高得多。

AI 专家认为，增强学习可以用于创建 AI 代理，让它能够独立做出更多的决定、承担更为复杂的工作，把人们解放出来去从事更有价值的工作。

例如，Mehrotra 表示，他们所开发的“吃豆小姐”打通关方法可用于帮助公司的销售部门针对某个特定日期或特定时刻的潜在客户进行准确预测。系统可以使用多个代理，每个代理盯住一名客户，由一个上层代理对多项因素加以权衡，如哪些客户即将续约，哪些合同对公司最有价值，以及某一天或某一时刻潜在客户通常是否在办公室或可前往拜访等。

相应地，销售主管会得到解放，就能够把自己的时间全部放在销售事务上，这样将会增加成交几率，因为她只需要瞄准最容易接受的客户即可。

Van Seijen 表示，这种“分而治之”的方法还可用于其它 AI 研究领域，如自然语言处理等。他说：“它确实能让我们在解决这些异常复杂的问题上取得深入进展。”