【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

会员服务 ·

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

2017 年 9 月 1 日 产业智能官

NIPS的最佳论文强化学习Value iteration Network 及代码

CreateAMind

功能介绍骥智智能科技上海有限公司、通用人工智能第一号；视觉无监督语义级特征的生成模型技术交流。深度学习的自动驾驶研发；中国的deepmind。

TensorFlow实现：https://github.com/TheAbhiKumar/tensorflow-value-iteration-networks

下面文章作者 https://www.zhihu.com/people/ikerpeng/

代码实现介绍：

Value Iteration Networks in TensorFlow

Tamar, A., Wu, Y., Thomas, G., Levine, S., and Abbeel, P. Value Iteration Networks. Neural Information Processing Systems (NIPS) 2016

This repository contains an implementation of Value Iteration Networks in TensorFlow which won the Best Paper Award at NIPS 2016. This code is based on the original Theano implementation by the authors.

Training

Download the 16x16 and 28x28 GridWorld datasets from the author's repository. This repository contains the 8x8 GridWorld dataset for convenience and its small size.

python3 train.py

If you want to monitor training progress change config.log to True and launch tensorboard --logdir /tmp/vintf/. The log directory is /tmp/vintf/ by default, but can be changed in config.logdir. The code currently runs the 8x8 GridWorld model by default.

The 8x8 GridWorld model converges in under 30 epochs with about ~98.5% accuracy. The paper lists that it should be around 99.6% and I was able to reproduce this with the Theano code. The TensorFlow model is not perfect as NaNs result when training with the same parameters as the Theano implementation on the 16x16 and 28x28 domain.

Dependencies

Python >= 3.5
TensorFlow >= 0.12
SciPy >= 0.18.1 (to load the data)

Datasets

The GridWorld dataset used is from the author's repository. It also contains Matlab scripts to generate the dataset. The code to process the dataset is from the original repository with minor modifications under this license
The model was also originally tested on three other domains and the author's original code will be released eventually

Mars Rover Navigation
Continuous control
WebNav

Resources

Value Iteration Networks on arXiv
Aviv Tamar's (author) original implementation in Theano
NIPS 2016 Supplemental
ICML Slides

Contact GitHub API Training Shop Blog About

Yoshua Bengio：目前深度学习和增强学习的交叉应用最火！（附视频）

来源：微软研究院ai头条号

导读：深度学习能够弥合机器学习在处理直观问题上的短板，通过让计算机从经验获取知识，来提升其智能水平，从而最终实现增加人类认知能力和智力的终极目标。尽管深度学习被炒得火热，但你真正了解它的本体和奥义吗？微软人工智能研究顾问、蒙特利尔大学教授Yoshua Bengio认为：目前深度学习和增强学习的交叉应用最火！

以下为Yoshua Bengio分享的精简版文字

两百年前，人类发明创造了机器，把人的双手从繁琐的机械劳动中解放了出来，其本质是人类机械力的简单增加。而近年来被炒得火热的机器学习和深度学习给我们带来了新的启迪，不断进行机器实验、追踪机器进步，将能够实现计算机提升人类认知能力和智力的终极目标。如今，构建智能机器已经不仅仅是科研界的宠儿，更是产业发展的大势所趋。我们正在经历着这场全新的“工业革命”。

各大领域不约而同呈现出的指数级增长趋势更是表明了深度学习已成为当下人工智能的“顶梁柱”。但不少追求深度学习热点的人并不了解其本体，事实上，深度学习是一种特殊的机器学习方法，是机器学习体系中的一个分支。机器学习是希望计算机能够在学习数据的过程中变得更加智能，而深度学习则主要聚焦于表征学习，从数据中提取出合理而高效的表达信息的特征，从而实现和人类类似的对信息的分析、识别和理解能力。

目前，我们还处于弱人工智能阶段，尽管强人工智能的时代尚未降临，但不可否认，强人工智能确实是深度学习的目标之一。相比于机器学习的其他分支，每一方向都对应某一特定领域的专业研究，深度学习更加关注的是通用功能和用途的实现，广泛探索应用的可能性。

深度学习：专治特征选择“纠结症”

我们在进行特征选择的时候往往会纠结到底保留哪些特征，又将哪些特征剔除，但几乎每一个特征都或多或少包含一些我们关心或者需要的信息，它们都能够为最终解决问题提供一些线索。然而完全保留在现实情况中往往是不可行的，此时患得患失的“特征选择纠结症”就会发作，你难以在大量特征中作出数量有限的选择，而深度学习就是给“纠结症”患者准备的一剂良药。

事实上，在传统机器学习中，人们经常会遇到数据不够或者过度拟合的问题，因此大家通常情况下会减少维数，从中选择重要的特征构建模型，以提高模型的推广能力。但其实还有一些其他的方法能够防止过度拟合，目前深度学习在这个领域已经有了一些探索，尽管我们现在还不能完全理解其中的运作原理。可必须承认的是大型网络拥有更多的参数，以及非常出色的泛化能力。它的泛化能力来自于它们的训练过程和方法，当然同时也需要匹配足够的数据。但好处是，在深度神经网络训练中我们可以保留所有的特征。这点不光受益于模型的能力，同时也受益于计算的优势，毕竟GPU的并行性能保证了用更大的模型矩阵（或者说更多的特征）并不会带来太多计算上的负担。

微软人工智能研究顾问、蒙特利尔大学教授Yoshua Bengio

无监督学习：未来世界大有可为

深度学习中的无监督学习非常有趣，它和孩子的成长过程本质上是很相似的。孩子刚出生的时候对世界一无所知，他通过一系列交互去认知世界，比如玩玩具，关注掉落的物体，自然而然孩子就能理解重力、液体这些概念。这些东西都无需父母或老师特意去教，孩子自己就能够通过观察身边的事物自觉获得知识，这其实就是无监督学习。目前我们还不太清楚无监督学习背后的原理，大致说来就是在观察世界的同时进行交互。虽然我们手头有大量的数据，但真正利用起来的却少之又少，我们还需要更好、更深层次的无监督学习来实现更进一步的探索。

深度学习的重点是学习表征，计算机不仅需要学习一个任务，而且要学到那些表征了声音、词、句子等的特征信息。在深度学习前期，计算机几乎保留了所有的信息输入，在理解了大量资料后以一种趋于简单的方式解决问题。就像先前提到的孩子一样，一旦能够充分理解组成世界的元素，他们就能够用物体和属性解释看到的事物。当下我们深度学习的大部分工作还没有给机器设定具体的任务，但未来我们可以利用无监督学习发现更好的表征，同时也可以延伸出更多的想象。

利用无监督学习我们已经实现了15年前完全无法想象的应用。举个例子，目前看来，文字生成图片还处于初级阶段，机器仍远远无法达到人类理解的程度。但是它们已经能够从图片中提取一些重要的表征，帮助我们更好地理解图片了。未来，图片和表征之间的相互转换将会更加丰富、高效，我们可以利用这些图片特征进行图像分类，或者指定一项特征以帮助我们迅速找到符合条件的图片，甚至还可以通过控制属性去生成你所需要的图片。

GAN：人工智能复杂任务的全新思路

GAN（Generative Adversarial Networks）生成式对抗网络，和我们之前几十年来做的东西有着根本上的差异。机器学习中大部分问题可以归入极大似然估计（Maximum Likelihood Estimate，MLE），深度学习一开始也是按照这样的路径发展，但是当研究者们试图去提高它们的时候，有趣的事情就发生了。GAN能够依据一些原本分辨率较低的图片，提取关键信息和细节生成非常逼真的高清图像，这为我们指导人工智能完成复杂任务提供了一个全新的思路，即通过训练两种不同的网络（生成方和鉴别方）并构造一种竞争关系，相互博弈对抗。生成方创造答案试图迷惑鉴别方，而鉴别方则分辨前者创造的答案与真实答案之间的区别，两者因目标不同所以始终处于对抗状态。在不停的博弈和竞争中，机器将会在特定领域拥有更加突出的能力。GAN采用了全新的学习过程，使得它能够生成更加逼真的数据。

最后，我觉得目前深度学习最火的领域是深度学习和增强学习的交叉应用，大量的论文也印证了这一点。增强学习能够帮助更好地发现表征，在观察世界的同时实现交互。我非常感兴趣的是智能体如何学习控制环境的各个方面，并在此过程中建立对周围信息的良好的表征，帮助它更好的完成实际的任务。这就好像孩子一样，他们一开始看似漫无目的的行为，其实是想要尝试控制环境，从而认识这个世界。我们也很想知道这个心智模型是如何构建的，如何反映孩子们的大脑行为。总之，深度学习领域的探索还只是开始，未来会充满更多新的挑战和新的机遇，在推动人工智能发展的道路上，我们任重道远.

新一代技术+商业操作系统：

AI-CPS OS

在新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生，在行业、企业和自身三个层面勇立鳌头。

数字化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置。

分辨率革命：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品控制、事件控制和结果控制。
复合不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊化：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大，一切都几乎变得不确定，即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）颠覆性的数字化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位。

如果不能在上述三个层面保持领先，领导力将会不断弱化并难以维继：