【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码;目前深度学习和增强学习交叉应用最火

2017 年 9 月 1 日 产业智能官

NIPS的最佳论文 强化学习Value iteration Network 及代码


CreateAMind                                                        


骥智智能科技上海有限公司、 通用人工智能第一号;视觉无监督语义级特征的生成模型技术交流。深度学习的自动驾驶研发;中国的deepmind。

                                                                       

TensorFlow实现:https://github.com/TheAbhiKumar/tensorflow-value-iteration-networks


下面文章作者 https://www.zhihu.com/people/ikerpeng/




代码实现介绍:


Value Iteration Networks in TensorFlow

Tamar, A., Wu, Y., Thomas, G., Levine, S., and Abbeel, P. Value Iteration Networks. Neural Information Processing Systems (NIPS) 2016

This repository contains an implementation of Value Iteration Networks in TensorFlow which won the Best Paper Award at NIPS 2016. This code is based on the original Theano implementation by the authors.




Training

  • Download the 16x16 and 28x28 GridWorld datasets from the author's repository. This repository contains the 8x8 GridWorld dataset for convenience and its small size.

python3 train.py

If you want to monitor training progress change config.log to True and launch tensorboard --logdir /tmp/vintf/. The log directory is /tmp/vintf/ by default, but can be changed in config.logdir. The code currently runs the 8x8 GridWorld model by default.

The 8x8 GridWorld model converges in under 30 epochs with about ~98.5% accuracy. The paper lists that it should be around 99.6% and I was able to reproduce this with the Theano code. The TensorFlow model is not perfect as NaNs result when training with the same parameters as the Theano implementation on the 16x16 and 28x28 domain.


Dependencies

  • Python >= 3.5

  • TensorFlow >= 0.12

  • SciPy >= 0.18.1 (to load the data)


Datasets

  • The GridWorld dataset used is from the author's repository. It also contains Matlab scripts to generate the dataset. The code to process the dataset is from the original repository with minor modifications under this license

  • The model was also originally tested on three other domains and the author's original code will be released eventually

    • Mars Rover Navigation

    • Continuous control

    • WebNav


Resources

  • Value Iteration Networks on arXiv

  • Aviv Tamar's (author) original implementation in Theano

  • NIPS 2016 Supplemental

  • ICML Slides

  • Contact GitHub API Training Shop Blog About




Yoshua Bengio:目前深度学习和增强学习的交叉应用最火!(附视频)




来源:微软研究院ai头条号  

导读:深度学习能够弥合机器学习在处理直观问题上的短板,通过让计算机从经验获取知识,来提升其智能水平,从而最终实现增加人类认知能力和智力的终极目标。尽管深度学习被炒得火热,但你真正了解它的本体和奥义吗?微软人工智能研究顾问、蒙特利尔大学教授Yoshua Bengio认为:目前深度学习和增强学习的交叉应用最火!





以下为Yoshua Bengio分享的精简版文字


两百年前,人类发明创造了机器,把人的双手从繁琐的机械劳动中解放了出来,其本质是人类机械力的简单增加。而近年来被炒得火热的机器学习和深度学习给我们带来了新的启迪,不断进行机器实验、追踪机器进步,将能够实现计算机提升人类认知能力和智力的终极目标。如今,构建智能机器已经不仅仅是科研界的宠儿,更是产业发展的大势所趋。我们正在经历着这场全新的“工业革命”。


各大领域不约而同呈现出的指数级增长趋势更是表明了深度学习已成为当下人工智能的“顶梁柱”。但不少追求深度学习热点的人并不了解其本体,事实上,深度学习是一种特殊的机器学习方法,是机器学习体系中的一个分支。机器学习是希望计算机能够在学习数据的过程中变得更加智能,而深度学习则主要聚焦于表征学习,从数据中提取出合理而高效的表达信息的特征,从而实现和人类类似的对信息的分析、识别和理解能力。


目前,我们还处于弱人工智能阶段,尽管强人工智能的时代尚未降临,但不可否认,强人工智能确实是深度学习的目标之一。相比于机器学习的其他分支,每一方向都对应某一特定领域的专业研究,深度学习更加关注的是通用功能和用途的实现,广泛探索应用的可能性。




深度学习:专治特征选择“纠结症”



我们在进行特征选择的时候往往会纠结到底保留哪些特征,又将哪些特征剔除,但几乎每一个特征都或多或少包含一些我们关心或者需要的信息,它们都能够为最终解决问题提供一些线索。然而完全保留在现实情况中往往是不可行的,此时患得患失的“特征选择纠结症”就会发作,你难以在大量特征中作出数量有限的选择,而深度学习就是给“纠结症”患者准备的一剂良药。


事实上,在传统机器学习中,人们经常会遇到数据不够或者过度拟合的问题,因此大家通常情况下会减少维数,从中选择重要的特征构建模型,以提高模型的推广能力。但其实还有一些其他的方法能够防止过度拟合,目前深度学习在这个领域已经有了一些探索,尽管我们现在还不能完全理解其中的运作原理。可必须承认的是大型网络拥有更多的参数,以及非常出色的泛化能力。它的泛化能力来自于它们的训练过程和方法,当然同时也需要匹配足够的数据。但好处是,在深度神经网络训练中我们可以保留所有的特征。这点不光受益于模型的能力,同时也受益于计算的优势,毕竟GPU的并行性能保证了用更大的模型矩阵(或者说更多的特征)并不会带来太多计算上的负担。


微软人工智能研究顾问、蒙特利尔大学教授Yoshua Bengio




无监督学习:未来世界大有可为



深度学习中的无监督学习非常有趣,它和孩子的成长过程本质上是很相似的。孩子刚出生的时候对世界一无所知,他通过一系列交互去认知世界,比如玩玩具,关注掉落的物体,自然而然孩子就能理解重力、液体这些概念。这些东西都无需父母或老师特意去教,孩子自己就能够通过观察身边的事物自觉获得知识,这其实就是无监督学习。目前我们还不太清楚无监督学习背后的原理,大致说来就是在观察世界的同时进行交互。虽然我们手头有大量的数据,但真正利用起来的却少之又少,我们还需要更好、更深层次的无监督学习来实现更进一步的探索。


深度学习的重点是学习表征,计算机不仅需要学习一个任务,而且要学到那些表征了声音、词、句子等的特征信息。在深度学习前期,计算机几乎保留了所有的信息输入,在理解了大量资料后以一种趋于简单的方式解决问题。就像先前提到的孩子一样,一旦能够充分理解组成世界的元素,他们就能够用物体和属性解释看到的事物。当下我们深度学习的大部分工作还没有给机器设定具体的任务,但未来我们可以利用无监督学习发现更好的表征,同时也可以延伸出更多的想象。


利用无监督学习我们已经实现了15年前完全无法想象的应用。举个例子,目前看来,文字生成图片还处于初级阶段,机器仍远远无法达到人类理解的程度。但是它们已经能够从图片中提取一些重要的表征,帮助我们更好地理解图片了。未来,图片和表征之间的相互转换将会更加丰富、高效,我们可以利用这些图片特征进行图像分类,或者指定一项特征以帮助我们迅速找到符合条件的图片,甚至还可以通过控制属性去生成你所需要的图片。




GAN:人工智能复杂任务的全新思路



GAN(Generative Adversarial Networks)生成式对抗网络,和我们之前几十年来做的东西有着根本上的差异。机器学习中大部分问题可以归入极大似然估计(Maximum Likelihood Estimate,MLE),深度学习一开始也是按照这样的路径发展,但是当研究者们试图去提高它们的时候,有趣的事情就发生了。GAN能够依据一些原本分辨率较低的图片,提取关键信息和细节生成非常逼真的高清图像,这为我们指导人工智能完成复杂任务提供了一个全新的思路,即通过训练两种不同的网络(生成方和鉴别方)并构造一种竞争关系,相互博弈对抗。生成方创造答案试图迷惑鉴别方,而鉴别方则分辨前者创造的答案与真实答案之间的区别,两者因目标不同所以始终处于对抗状态。在不停的博弈和竞争中,机器将会在特定领域拥有更加突出的能力。GAN采用了全新的学习过程,使得它能够生成更加逼真的数据。


最后,我觉得目前深度学习最火的领域是深度学习和增强学习的交叉应用,大量的论文也印证了这一点。增强学习能够帮助更好地发现表征,在观察世界的同时实现交互。我非常感兴趣的是智能体如何学习控制环境的各个方面,并在此过程中建立对周围信息的良好的表征,帮助它更好的完成实际的任务。这就好像孩子一样,他们一开始看似漫无目的的行为,其实是想要尝试控制环境,从而认识这个世界。我们也很想知道这个心智模型是如何构建的,如何反映孩子们的大脑行为。总之,深度学习领域的探索还只是开始,未来会充满更多新的挑战和新的机遇,在推动人工智能发展的道路上,我们任重道远.

 



新一代技术+商业操作系统:

AI-CPS OS

     

新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利AI-CPS OS形成字化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生,在行业、企业和自身三个层面勇立鳌头。


数字化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置。

  • 分辨率革命种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品控制、事件控制和结果控制。

  • 复合不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  • 边界模糊化:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大,一切都几乎变得不确定,即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能颠覆性的数字化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位。


如果不能在上述三个层面保持领先,领导力将会不断弱化并难以维继: 

  • 重新进行行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  • 重新构建你的企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  • 重新打造新的自己:你需要成为怎样的人?要重塑自己并在数字化时代保有领先地位,你必须如何去做?


子曰:“君子和而不同,小人同而不和。”  《论语·子路》

云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。

在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。

云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


人工智能通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。


新一代信息技术(云计算、大数据、物联网、区块链和人工智能)的商业化落地进度远不及技术其本身的革新来得迅猛,究其原因,技术供应商(乙方)不明确自己的技术可服务于谁,传统企业机构(甲方)不懂如何有效利用新一代信息技术创新商业模式和提升效率。


“产业智能官”,通过甲、乙方价值巨大的云计算、大数据、物联网、区块链和人工智能的论文、研究报告和商业合作项目,面向企业CEO、CDO、CTO和CIO,服务新一代信息技术输出者和新一代信息技术消费者。


助力新一代信息技术公司寻找最有价值的潜在传统客户与商业化落地路径,帮助传统企业选择与开发适合自己的新一代信息技术产品和技术方案,消除新一代信息技术公司与传统企业之间的信息不对称,推动云计算、大数据、物联网、区块链和人工智能的商业化浪潮。


给决策制定者和商业领袖的建议:


  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发人工智能型企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。

重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。

新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能正在经历从“概念”到“落地”,最终实现“大范围规模化应用,深刻改变人类生活”的过程。





产业智能官  AI-CPS



新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中状态感知-实时分析-自主决策-精准执行-学习提升认知计算机器智能实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链




长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”;新模式:“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”






本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com





登录查看更多
6

相关内容

Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
10+阅读 · 2017年12月5日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Image Captioning based on Deep Reinforcement Learning
Arxiv
3+阅读 · 2018年8月17日
Arxiv
3+阅读 · 2018年2月22日
VIP会员
相关VIP内容
相关资讯
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
10+阅读 · 2017年12月5日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员