Plan Online, Learn Offline: Efficient Learning and Exploration via Model-Based Control
本文是OpenAI和华盛顿大学的合作成果,研究人员提出了一种名为“plan online and learn offline”的框架,其中的智能体有一个内部模型,需要持续地在环境中学习。我们研究了局部轨迹优化如何应对价值函数中的近似误差,并且可以稳定和加速价值函数学习。我们还研究了近似值函数如何能帮助缩小规划范围,并做出超越局部解决方案的策略。
地址:https://arxiv.org/abs/1811.01848
A Generative Adversarial Approach for Zero-Shot Learning from Noisy Texts
大多数现有的零次学习方法都将问题看作视觉语义嵌入。大多数任务都用生成对抗网络生成图片,但我们却用GAN从文字描述中想象从未见过的类别。我们提出了一种简单且高效的生成模型,将一个从未见过的类别的、带有噪音的文字描述作为输入,生成该类别的合成视觉特征。添加伪数据后,零次学习被很自然地转化成传统的分类问题。
地址:https://research.fb.com/publications/a-generative-adversarial-approach-for-zero-shot-learning-from-noisy-texts/
You Only Search Once: Single Shot Neural Architecture Search via Direct Sparse Optimization
神经架构搜索在学术界和业界引起了人们很大兴趣,但由于它体积庞大,并且没有连续的搜索空间,一直是个难题。此前的工作都是使用进化算法或强化学习,在这篇论文中,我们提出了一种直接稀疏优化NAS方法(DSO-NAS)。在该方法中,我们提出了一个新模型,从完全连接模块开始,然后对操作之间的信息流进行缩放。之后我们用稀疏正则化删除架构中无用的链接。最后,生成一种高效的声音优化方法解决问题。
地址:https://arxiv.org/abs/1811.01567
星标论智,每天获取最新资讯