长按识别二维码享更多精彩
随着越来越多的公司开始在不同的环境中进行试验和部署机器学习,展望一下未来的系统是极好的。今天,典型的序列是收集数据,学习一些底层的结构,通过部署一种算法,系统地捕捉到你学过的东西。收集,准备,和丰富正确的数据 — 特别是训练数据 —这是必不可少的,应该说收集反馈数据仍然是想要使用机器学习公司的一大瓶颈(前排提示:文中所有标蓝部分均可点击阅读原文获取详情)。
未来的人工智能系统将依赖于持续学习,而不是离线训练的算法。人类以这种方式学习,人工智能系统也将越来越有能力这样做。想象一下第一次前往一间办公室并且被障碍物绊倒。下一次你再去到那个地方 — 也许只是几分钟以后 — 你很可能就会知道要当心绊倒你的物体。
有许多应用和场景具有相似探索性质的学习。设想一个Agent与环境相互作用的同时,为了完成一些指定的任务,努力学习采取什么样的行动,以及要避免哪些行为。我们已经看到了强化学习(RL)近期的一些应用。在RL中,目标是学习如何将观察和量度映射到一组动作上,同时试图最大化一些长期回馈。(RL这个术语经常用来描述一类问题和一组算法)虽然深度学习获得了更多的媒体关注,但在大家熟知的AI圈子里,有许多有趣的关于RL的新事态发展。研究人员最近将RL应用于游戏,机器人,无人驾驶,对话系统,文本摘要,教育和培训,以及能源利用。
图1 强化学习包括学习将观察和量度映射到行动上(来源:Ben Lorica)
正如深度学习正在慢慢成为数据科学家工具集的一部分一样,类似的情况也正在持续学习上发生。但是为了让数据科学家参与进来,工具和算法都需要变得更容易被接受。这将需要一套新的工具和算法—不同于过去监督学习的工具和算法。持续学习需要一组工具,这些工具可以运行和分析大量涉及复杂计算图形的仿真模拟,理想情况下,应该有一个很低的延迟响应时间。
图2 持续学习的典型工具集或者“堆栈”(来源:Ben Lorica)
加州大学伯克利分校RISE实验室的一个团队最近发布了一个开源的分布式计算框(Ray),它补充了强化学习所需的其他部分。在像自动驾驶汽车这种复杂的应用中,涉及多种传感器和测量,因此,能够快速并行地探索和模拟运行将具有极大的优势。Ray允许用户运行带有一个Python API的并行模拟,这对于数据科学家来说更易用(Ray本身主要是由C++语言写的)。我在RL文章中写关于Ray的内容,是因为它通常是针对Python用户的容错,分布式计算框架。Ray的创建者使其他人很容易使用Python在Ray上编写和运行自己的算法,包括常规的机器学习模型。
为什么需要一个机器学习库,什么样的算法对持续学习重要?回想一下,在RL中,需要学习如何将观察和量度映射到一组动作上,同时试图最大化一些长期回馈。最近RL的成功案例主要使用基于梯度的深度学习,但是研究人员发现了其它的优化策略,比如推演可能会有所帮助。与监督学习不同,你是从训练数据和客观目标开始,在RL中仅有稀疏的反馈,因此像神经进化的技能,随着经典的梯度学习下降而变得更有竞争力。还有其它相关的算法,可能成为用于持续学习模型标准集合的一部分(例如,最近应用于扑克牌游戏中最低限度减少悔牌的可能性)。Ray的创建者正在收集一个库,这个库实现一组共同的RL算法,它通过一个简单Python API的函数变的更容易使用。
大多数公司仍在学习如何使用和部署标准(离线)的机器学习,所以讨论持续学习可能是不成熟的。开始这场讨论的一个重要原因是,这些技术对于将AI带入到你的组织是必不可少的。与其他任何新的技术和方法一样,其出发点是确定用例,在这种情况下,持续学习可能比现有的离线方法更具有优势。我提供了一些例子,这些例子已经部署了RL或者研究取得了可喜的成果,但是这些例子可能与你的组织运作相去甚远。一组已经使用强盗算法(推荐内容或评估产品)的公司可能很快会确认用例,并且成为早期的用户。用于开发AI教学Agent的技术可能拓展到许多涉及扩张人力的应用领域(包括软件工程)。
许多公司意识到,在大多数情况下,机器学习模型在部署到生产后不久就开始退化。好消息是许多AI初创公司正在他们的产品中构建持续学习。公司可能在不久的将来开始使用RL。
相关资源:
Ray:一个新兴的分布式执行框架AI应用(2017 Strata Data keynote by Michael Jordan)
机器人强化学习(2016 Artificial Intelligence Conference presentation by Pieter Abbeel)
人车结合(2017 Artificial Intelligence Conference keynote by Anca Dragan)
强化学习介绍和OpenAI Gym
神经进化:一种不同的深度学习
强化学习的解释
原文:Why continuous learning is key to AI
作者:Ben Lorica.
翻译:无阻我飞扬
长按识别二维码享更多精彩