OpenAI-2018年强化学习领域7大最新研究方向全盘点

2018 年 2 月 3 日 深度学习与NLP lqfarmer

    OpenAI一直是业界进行强化学习研究与应用的前沿阵地,2018年伊始,今天就给大家盘点一下新的AI纪元之年,OpenAI火力全开,重点研究的七个问题。

 

⭐⭐⭐    分布式深度强化学习中参数平均问题(Parameter Averaging)

    在RL算法中探索参数平均方案对样本复杂度和通信开销带来的影响。虽然最简单的解决方案是在每次更新时,直接平均来自每个Worker的梯度,但也可以让每个Worker独立更新参数,达到一定更新次数后再提交更新,减少参数平均带来的来通信开销。在RL中,这可能还有另一个好处:在任何时候,都会有Agent具有不同参数,这可能会带来更好的探索行为。另一种可能性是像EASGD这样的使用算法,每个更新都将参数部分地结合在一起。

 

⭐⭐⭐     通过生成模型,在不同的GAMES之间进行迁移问题

·     为11个Atari游戏,训练11个好的Policy。从每个游戏的Policy中产生10,000个1000步的轨迹数据。

·     使用一个生成模型(如Transformer)去逼近其中10个游戏产生的轨迹数据。

·     然后在第11个游戏的轨迹数据中微调这个模型。

·     目标是量化前10场GAME数据的训练前的帮助有多大。该模型需要多大的预训练才能起到Positive(帮助训练)的作用?当第11场游戏的数据量减少10倍时,效果的大小如何变化?减少100倍又如何?

 

⭐⭐    贪吃蛇项目Slitherin问题

     基于Gym环境,实现和解决经典的贪食蛇游戏的多游戏者问题(详见slither.io)。

·    环境:有一个相当大的环境与多个蛇;水果随机出现,且蛇吃水果之后会成长;一条蛇在与另一条蛇,或蛇本身或墙壁相撞时死亡;当所有的蛇死亡,游戏结束。从两条蛇开始,并基于此不断扩展。

·     Agent:基于用户选择,RL算法通过self_learning,自动基于环境来解决问题。需要尝试各种方法来克服self_learning的不稳定性(类似于GAN学习中出现的不稳定)。例如,尝试基于过去的策略(policy)分配来学习当前的策略。哪种方法效果最好?

·     检查学到的行为:Agent是否学会追逐食物,避免其他蛇碰撞?Agent是否学会进攻,设陷阱,或与竞争的蛇相抗衡?等等问题。


⭐⭐⭐     基于Linear Attention 的Transfomer模型问题

    “Transfomer”模型中使用了基于softmax的Soft Attention机制。如果可以使用Linear Attention(可以转换成使用Fast Weight的RNN),我们就可以得到模型用于RL中。具体而言,在复杂的Context的RL学习环境下,直接把Transfomer应用于RL是不切实际的,但是基于Fast Weight的RNN是可行的。

    我们的目标是:对于任何语言建模(Language Modeling)任务;只需要训练一个Transfomer模型,然后然后找到一种方法,使用具有不同超参数Liner-Attention Transfomer模型来获得每个字符/字的相同位(Bits),而不用增加过多的参数。但有一点需要注意:这个方法也可以行不通。一个重要的提示:与使用softmax的注意力相比,Liner-Attention Transfomer可能需要高维度的key/value向量,这可以在不显着增加参数数量的情况下完成。

 

⭐⭐⭐     学习数据增强(Learned Data Augmentation)问题

    可以使用基于数据学习得到的VAE数据来进行“学习数据增强”。首先要对输入数据进行VAE训练,然后将每个训练样本通过编码映射到latent space,然后在latent space中添加一个简单的(如高斯)扰动,然后解码回观测空间。问题是,我们可以用这种方法来提升泛化效果吗?这种数据增强的潜在好处是它可以包括引入许多非线性变换,如视点变化和场景闪电的变化。我们能否近似标签不变的转换集呢?

 

⭐⭐⭐⭐     强化学习(RL)中的正规化(Regularization)问题

实验研究(和定性解释)不同正则化方法对选择的RL算法的有很大的影响。如,在有监督的深度学习中,正则化对于改进优化和防止过拟合非常重要,其中非常成功的方法如Dropout,Batch Normalization和L2正则化。但是,人们还没有从强化学习算法(如策略梯度和Q学习)的正则化中受益。顺便提一句,人们通常在RL中使用的模型要比监督式学习中使用的模型结构要的小得多,因为大型模型的效果表现更差 - 也许是因为小模型更适用于最近的研究场景。这是一个相关的,但更久远的理论研究。

 

⭐⭐⭐⭐⭐    自动求Olympiad Inequality Problems问题

    Olympiad Inequality Problems很容易表达,但解决这些问题通常需要巧妙的操作。构建Olympiad Inequality Problems的数据集,编写能解决其中很大一部分问题的程序。目前尚不清楚机器学习在这里是否有用,但可以使用一个学习的策略来减少一些分支因素。

    是否还在因为论文写作排版问题纠结呢?给大家推荐一套万门大学的LaTex精准入门教程。限时免费名额有限,先到先得哦。

登录查看更多
0

相关内容

OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
7+阅读 · 2018年12月26日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
4+阅读 · 2018年5月4日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
4+阅读 · 2017年10月30日
VIP会员
相关资讯
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
7+阅读 · 2018年12月26日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
4+阅读 · 2018年5月4日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
4+阅读 · 2017年10月30日
Top
微信扫码咨询专知VIP会员