人工智能的热点:深度强化学习正成为通往通用AI的关键

2018 年 4 月 11 日 DeepTech深科技

长按识别二维码,收看2018《麻省理工科技评论》区块链商业峰会


深度强化学习( DRL ) 是人工智能研究的一个令人兴奋的领域,这个领域在许多问题上都具有潜在的适用性。有些人认为DRL是通往通用人工智能(AGI)的一条道路,因为它是通过探索和接收环境的反馈来反映人类学习的。


最近,DRL成功击败人类视频游戏玩家,以及双足智能体学习在模拟环境中行走,这些进展都提高了人们对该领域的热情。


与基于已知标签训练模型的监督学习不同,在强化学习中,研究人员通过让智能体与环境交互来训练模型。当智能体的行为产生期望的结果时,例如智能体获得奖励得分或赢得一场比赛,它会得到积极的反馈。简单地说,研究人员加强了智能体的良好行为。


将 DRL 应用于实际问题的关键挑战之一是构造一个激励函数,该函数鼓励期望的行为而不存在副作用。


也许值得注意的是,尽管深度强化学习(“深层”指的是底层模型是一个深层神经网络)仍然是一个相对较新的领域,但强化学习自上世纪70年代或更早就出现了。


图丨Andrej Karpathy


正如计算机视觉领域大牛之一、李飞飞高徒、曾在OpenAI任研究科学家、现任特斯拉AI总监的 Andrej Karpathy 在他2016的博文中所指出的那样,像AlphaGo和Atari Deep Q-Learning这样关键的 DRL 研究都是基于已经存在了一段时间的算法,但是深度学习取代了其他近似函数的方法。当然,他们能够使用深度学习归功于过去20多年中廉价计算能力的爆炸式增长。


DRL带给人们的信心,再加上谷歌在2014年以5亿美元收购DeepMind的行为,使得许多初创公司希望利用这项技术。由于人们对 DRL 越来越感兴趣,我们也看到了新的开源工具包和 DRL 智能体的训练环境。这些框架中的大多数本质上都是专用的仿真工具或接口,以下是几个值得关注的工具包:


  • OpenAI Gym


OpenAI Gym是一个流行的工具包,用于开发和比较强化学习模型。它的模拟器界面支持多种环境,包括经典的Atari游戏,以及机器人和物理模拟器,如MuJoCo和DARPA资助的Gazebo。和其他DRL工具包一样,它提供API来反馈观察结果和奖励给智能体。


  • DeepMind Lab

DeepMind Lab是一个基于Quake III第一人称射击游戏的3D学习环境,为智能体训练提供导航和学习任务。DeepMind最近增加了DMLab-30智能体训练套装,并引入了新的Impala分布式智能体训练体系结构。


  • Psychlab

另一个DeepMind工具包Psychlab今年早些时候开源了,它扩展了DeepMind Lab,以支持认知心理学实验,比如搜索一组特定目标或检测一组物体的变化。然后,研究人员可以比较人类和智能体在这些任务上的表现。


  • House3D

在加州大学伯克利分校和Facebook人工智能研究人员的合作下,House 3D提供了45,000多个模拟室内场景,包括真实的房间和家具布局。介绍House 3D的论文中提到的主要任务是“概念驱动导航”,比如训练一个智能体,在只给出像“餐厅”这样的高级描述符的情况下,导航到房子中的一个房间。


  • Unity Machine Learning Agents

在Danny Lange (VP of AI and ML) 的指导下,游戏引擎开发者Unity公司正在努力将先进的人工智能技术纳入其平台。Unity Machine Learning Agents于2017年9月发布,这是一个开源的Unity 插件,它可以让运行在该平台上的游戏和仿真环境作为训练智能体的环境。


  • Ray 

这里列出的其他工具主要关注DRL培训环境,Ray则更多地介绍了DRL的基础架构。Ray是由Ion Stoica和他在Berkeley RISELab的团队开发的,它是一个在集群和大型多核机器上高效运行Python代码的框架,其目标是为强化学习提供一个低延迟的分布式执行框架。


所有这些工具和平台的出现将使 DRL 更便于开发人员和研究人员使用。但是,他们需要得到所有的能得到的帮助,因为深度强化学习技术很难付诸实践。谷歌工程师 Alex Irpan 最近发表了一篇题为“深度强化学习还不成熟”的文章,对原因进行了解释。Irpan 列举了 DRL 所需的大量数据、大多数 DRL 方法没有利用关于所涉及的系统和环境的先验知识、以及前面提到的提出有效的激励函数方面的困难等问题。


从研究和应用的角度来看,深度强化学习能继续成为人工智能领域的一个热门话题。它在处理复杂、多方面和决策问题方面显示出巨大的潜力,这使得它不仅对工业系统和游戏有用,而且在营销、广告、金融、教育,甚至数据科学本身等领域都很有用。


-End-


编辑:LXQ 校审:黄珊


登录查看更多
4

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
快速上手深度强化学习?学会TensorForce就够了
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
17+阅读 · 2018年1月31日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
Arxiv
9+阅读 · 2019年4月19日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Large-Scale Study of Curiosity-Driven Learning
Arxiv
8+阅读 · 2018年8月13日
Arxiv
8+阅读 · 2018年6月19日
VIP会员
相关资讯
快速上手深度强化学习?学会TensorForce就够了
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
17+阅读 · 2018年1月31日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
Top
微信扫码咨询专知VIP会员