怎样让AI完成人类搞不定的任务?OpenAI提出迭代扩增法给AI设目标

2018 年 10 月 23 日 量子位
李林 编译整理
量子位 出品 | 公众号 QbitAI

人类:AI啊,给北京设计一套不堵车的交通系统吧!

AI:想不堵车,只好……

想让AI去完成这种庞大复杂的任务,怎样训练、怎样指导,是个非常严峻的问题。

OpenAI今天提出了“迭代扩增”(iterated amplification),官方博客介绍说,这是一种AI安全技术,人类能运用这种方法,指导AI去完成那些人力不可及的任务。

简单来说,就是通过展示如何把任务分解成简单的子任务,让AI认清这个复杂任务的目标是什么、行为是怎样的

这项技术,指向OpenAI成立之初就在讲的终极目标:让通用人工智能(AGI)更安全。

迭代扩增有什么用?要从如今AI常用的机器学习系统如何训练谈起。

训练一个机器学习系统,让它完成某种任务,需要人类提供训练信号,比如监督学习里的数据标签、强化学习里的奖励(reward),就都属于训练信号。

提供训练信号,对人类来说是一件说简单也简单,说难又很难的事情。这取决于想让AI学习什么样的任务。

让它识别手写数字,人类能认出这些数字标注出来就行;让AI玩游戏,人类会计算游戏得分、或者演示给AI看就行。而如果想让AI预测未来呢?

人类根本搞不定,训练信号更是无从提供起。要是提供错了,鬼知道AI会学出什么来……

迭代扩增就是用来给这类任务生成训练信号的。

这种方法基于这样两个条件:一是当人类遇到这种执行不了、或者无法判断完成情况的庞大复杂任务,起码还知道它能分解成哪些更小的部分;二是这些分解出来的小部分,人类还是可以完成的。

这样,就可以让人类去给这些小的子任务提供训练信号,然后把它们综合起来,指导总体任务。

当然,现在迭代扩增还没有用到人类无法解决的庞大任务上。为了测试这种方法,OpenAI先为它设置了五个小测验,分别是:

  • permutation powering

  • sequential assignments(顺序分配)

  • wildcard search(通配符搜索)

  • shortest path(最短路径)

  • union find(联合查找)

实验中,OpenAI的研究人员需要“假装不知道”这些任务应该怎样完成,不给机器学习模型提供完整的标注数据,而是将每一项任务分解成小的子任务,再为这些子任务提供训练信号,让AI间接地学习。

他们把通过迭代扩增和直接提供监督信号来训练的结果进行了比较,结果,在这5项任务上,通过迭代扩增来训练都获得了和直接使用监督学习差不多的效果。

OpenAI说,他们计划将来用迭代扩增方法,来训练AI去实现人类搞不定的,真正的复杂任务。

看到这种方法,你可能会想到AlphaGo Zero中所用的专家迭代。它们有相似之处,也有很明确的区别:专家迭代增强的是一个已经存在的训练信号,而迭代扩增需要从头开始构建训练信号。

更多细节,都在这篇论文里:

Supervising strong learners by amplifying weak experts

https://arxiv.org/pdf/1810.08575.pdf

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
1

相关内容

【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
7+阅读 · 2018年8月28日
VIP会员
Top
微信扫码咨询专知VIP会员