【不依赖离线训练】为什么说持续学习才是AI的关键

2017 年 8 月 30 日 新智元

1新智元推荐  

CSDN 授权新智元转载

作者:Ben Lorica

翻译:无阻我飞扬


【新智元导读】随着越来越多的公司开始在不同的环境中进行试验和部署机器学习,展望一下未来的系统是极好的。



摘要:本文介绍了什么是持续学习,详细阐述了持续学习是人工智能发展的关键,以下是译文


随着越来越多的公司开始在不同的环境中进行试验和部署机器学习,展望一下未来的系统是极好的。今天,典型的序列是收集数据,学习一些底层的结构,通过部署一种算法,系统地捕捉到你学过的东西。收集,准备,和丰富正确的数据 — 特别是训练数据 —这是必不可少的,应该说收集反馈数据仍然是想要使用机器学习公司的一大瓶颈。


未来的人工智能系统将依赖于持续学习,而不是离线训练的算法。人类以这种方式学习,人工智能系统也将越来越有能力这样做。想象一下第一次前往一间办公室并且被障碍物绊倒。下一次你再去到那个地方 — 也许只是几分钟以后 — 你很可能就会知道要当心绊倒你的物体。


有许多应用和场景具有相似探索性质的学习。设想一个Agent与环境相互作用的同时,为了完成一些指定的任务,努力学习采取什么样的行动,以及要避免哪些行为。我们已经看到了强化学习(RL)近期的一些应用。在RL中,目标是学习如何将观察和量度映射到一组动作上,同时试图最大化一些长期回馈。(RL这个术语经常用来描述一类问题和一组算法)虽然深度学习获得了更多的媒体关注,但在大家熟知的AI圈子里,有许多有趣的关于RL的新事态发展。研究人员最近将RL应用于游戏,机器人,无人驾驶,对话系统,文本摘要,教育和培训,以及能源利用。


图1.强化学习包括学习将观察和量度映射到行动上。来源:Ben Lorica


正如深度学习正在慢慢成为数据科学家工具集的一部分一样,类似的情况也正在持续学习上发生。但是为了让数据科学家参与进来,工具和算法都需要变得更容易被接受。这将需要一套新的工具和算法—不同于过去监督学习的工具和算法。持续学习需要一组工具,这些工具可以运行和分析大量涉及复杂计算图形的仿真模拟,理想情况下,应该有一个很低的延迟响应时间。


图2.持续学习的典型工具集(或者“堆栈”)。来源:Ben Lorica.


加州大学伯克利分校RISE实验室的一个团队最近发布了一个开源的分布式计算框(Ray),它补充了强化学习所需的其他部分。在像自动驾驶汽车这种复杂的应用中,涉及多种传感器和测量,因此,能够快速并行地探索和模拟运行将具有极大的优势。Ray允许用户运行带有一个Python API的并行模拟,这对于数据科学家来说更易用(Ray本身主要是由C++语言写的)。我在RL文章中写关于Ray的内容,是因为它通常是针对Python用户的容错,分布式计算框架。Ray的创建者使其他人很容易使用Python在Ray上编写和运行自己的算法,包括常规的机器学习模型。


为什么需要一个机器学习库,什么样的算法对持续学习重要?回想一下,在RL中,需要学习如何将观察和量度映射到一组动作上,同时试图最大化一些长期回馈。最近RL的成功案例主要使用基于梯度的深度学习,但是研究人员发现了其它的优化策略,比如推演可能会有所帮助。与监督学习不同,你是从训练数据和客观目标开始,在RL中仅有稀疏的反馈,因此像神经进化的技能,随着经典的梯度学习下降而变得更有竞争力。还有其它相关的算法,可能成为用于持续学习模型标准集合的一部分(例如,最近应用于扑克牌游戏中最低限度减少悔牌的可能性)。Ray的创建者正在收集一个库,这个库实现一组共同的RL算法,它通过一个简单Python API的函数变的更容易使用。


大多数公司仍在学习如何使用和部署标准(离线)的机器学习,所以讨论持续学习可能是不成熟的。开始这场讨论的一个重要原因是,这些技术对于将AI带入到你的组织是必不可少的。与其他任何新的技术和方法一样,其出发点是确定用例,在这种情况下,持续学习可能比现有的离线方法更具有优势。我提供了一些例子,这些例子已经部署了RL或者研究取得了可喜的成果,但是这些例子可能与你的组织运作相去甚远。一组已经使用强盗算法(推荐内容或评估产品)的公司可能很快会确认用例,并且成为早期的用户。用于开发AI教学Agent的技术可能拓展到许多涉及扩张人力的应用领域(包括软件工程)。


许多公司意识到,在大多数情况下,机器学习模型在部署到生产后不久就开始退化。好消息是许多AI初创公司正在他们的产品中构建持续学习。公司可能在不久的将来开始使用RL。


相关资源:


  • Ray :一个新兴的分布式执行框架AI应用(2017 Strata Data keynote by Michael Jordan)*

  • 机器人强化学习((2016 Artificial Intelligence Conference presentation by Pieter Abbeel)*

  • 人车结合(2017 Artificial Intelligence Conference keynote by Anca Dragan)

  • 强化学习介绍和OpenAI Gym

  • 神经进化:一种不同的深度学习

  • 强化学习的解释*


请点击「阅读原文」获取资源地址。




【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位

点击阅读原文可查看职位详情,期待你的加入~


登录查看更多
0

相关内容

持续学习(continuallearning,CL) 是 模 拟 大 脑 学 习 的 过 程,按 照 一 定 的 顺 序 对 连 续 非 独 立 同 分 布 的 (independentlyandidenticallydistributed,IID)流数据进行学习,进而根据任务的执行结果对模型进行 增量式更新.持续学习的意义在于高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极 大程度地降低遗忘带来的问题.连续学习研究对智能计算系统自适应地适应环境改变具有重要的意义
多智能体深度强化学习的若干关键科学问题
专知会员服务
190+阅读 · 2020年5月24日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
139+阅读 · 2020年3月1日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
51+阅读 · 2020年2月19日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
深度 | 为什么要利用NLP做情感分析?
大数据文摘
4+阅读 · 2017年12月22日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
从零开始:教你如何训练神经网络
机器之心
5+阅读 · 2017年12月11日
观点|元学习:实现通用人工智能的关键!
AI科技评论
8+阅读 · 2017年8月21日
我们为什么需要一个时序数据库?
大数据杂谈
3+阅读 · 2017年7月6日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
8+阅读 · 2018年3月20日
VIP会员
相关资讯
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
深度 | 为什么要利用NLP做情感分析?
大数据文摘
4+阅读 · 2017年12月22日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
从零开始:教你如何训练神经网络
机器之心
5+阅读 · 2017年12月11日
观点|元学习:实现通用人工智能的关键!
AI科技评论
8+阅读 · 2017年8月21日
我们为什么需要一个时序数据库?
大数据杂谈
3+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员