OpenAI一直是业界进行强化学习研究与应用的前沿阵地,2018年伊始,今天就给大家盘点一下新的AI纪元之年,OpenAI火力全开,重点研究的七个问题。
⭐⭐⭐ 分布式深度强化学习中参数平均问题(Parameter Averaging)
在RL算法中探索参数平均方案对样本复杂度和通信开销带来的影响。虽然最简单的解决方案是在每次更新时,直接平均来自每个Worker的梯度,但也可以让每个Worker独立更新参数,达到一定更新次数后再提交更新,减少参数平均带来的来通信开销。在RL中,这可能还有另一个好处:在任何时候,都会有Agent具有不同参数,这可能会带来更好的探索行为。另一种可能性是像EASGD这样的使用算法,每个更新都将参数部分地结合在一起。
⭐⭐⭐ 通过生成模型,在不同的GAMES之间进行迁移问题
· 为11个Atari游戏,训练11个好的Policy。从每个游戏的Policy中产生10,000个1000步的轨迹数据。
· 使用一个生成模型(如Transformer)去逼近其中10个游戏产生的轨迹数据。
· 然后在第11个游戏的轨迹数据中微调这个模型。
· 目标是量化前10场GAME数据的训练前的帮助有多大。该模型需要多大的预训练才能起到Positive(帮助训练)的作用?当第11场游戏的数据量减少10倍时,效果的大小如何变化?减少100倍又如何?
⭐⭐ 贪吃蛇项目Slitherin问题
基于Gym环境,实现和解决经典的贪食蛇游戏的多游戏者问题(详见slither.io)。
· 环境:有一个相当大的环境与多个蛇;水果随机出现,且蛇吃水果之后会成长;一条蛇在与另一条蛇,或蛇本身或墙壁相撞时死亡;当所有的蛇死亡,游戏结束。从两条蛇开始,并基于此不断扩展。
· Agent:基于用户选择,RL算法通过self_learning,自动基于环境来解决问题。需要尝试各种方法来克服self_learning的不稳定性(类似于GAN学习中出现的不稳定)。例如,尝试基于过去的策略(policy)分配来学习当前的策略。哪种方法效果最好?
· 检查学到的行为:Agent是否学会追逐食物,避免其他蛇碰撞?Agent是否学会进攻,设陷阱,或与竞争的蛇相抗衡?等等问题。
⭐⭐⭐ 基于Linear Attention 的Transfomer模型问题
“Transfomer”模型中使用了基于softmax的Soft Attention机制。如果可以使用Linear Attention(可以转换成使用Fast Weight的RNN),我们就可以得到模型用于RL中。具体而言,在复杂的Context的RL学习环境下,直接把Transfomer应用于RL是不切实际的,但是基于Fast Weight的RNN是可行的。
我们的目标是:对于任何语言建模(Language Modeling)任务;只需要训练一个Transfomer模型,然后然后找到一种方法,使用具有不同超参数Liner-Attention Transfomer模型来获得每个字符/字的相同位(Bits),而不用增加过多的参数。但有一点需要注意:这个方法也可以行不通。一个重要的提示:与使用softmax的注意力相比,Liner-Attention Transfomer可能需要高维度的key/value向量,这可以在不显着增加参数数量的情况下完成。
⭐⭐⭐ 学习数据增强(Learned Data Augmentation)问题
可以使用基于数据学习得到的VAE数据来进行“学习数据增强”。首先要对输入数据进行VAE训练,然后将每个训练样本通过编码映射到latent space,然后在latent space中添加一个简单的(如高斯)扰动,然后解码回观测空间。问题是,我们可以用这种方法来提升泛化效果吗?这种数据增强的潜在好处是它可以包括引入许多非线性变换,如视点变化和场景闪电的变化。我们能否近似标签不变的转换集呢?
⭐⭐⭐⭐ 强化学习(RL)中的正规化(Regularization)问题
实验研究(和定性解释)不同正则化方法对选择的RL算法的有很大的影响。如,在有监督的深度学习中,正则化对于改进优化和防止过拟合非常重要,其中非常成功的方法如Dropout,Batch Normalization和L2正则化。但是,人们还没有从强化学习算法(如策略梯度和Q学习)的正则化中受益。顺便提一句,人们通常在RL中使用的模型要比监督式学习中使用的模型结构要的小得多,因为大型模型的效果表现更差 - 也许是因为小模型更适用于最近的研究场景。这是一个相关的,但更久远的理论研究。
⭐⭐⭐⭐⭐ 自动求Olympiad Inequality Problems问题
Olympiad Inequality Problems很容易表达,但解决这些问题通常需要巧妙的操作。构建Olympiad Inequality Problems的数据集,编写能解决其中很大一部分问题的程序。目前尚不清楚机器学习在这里是否有用,但可以使用一个学习的策略来减少一些分支因素。
是否还在因为论文写作排版问题纠结呢?给大家推荐一套万门大学的LaTex精准入门教程。限时免费,名额有限,先到先得哦。