学界 | FAIR 田渊栋:2017 年的一些研究和探索

2017 年 12 月 28 日 AI科技评论 田渊栋

AI 科技评论按:本文作者田渊栋,本文首发于作者的知乎专栏,AI 科技评论授权转载。

今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索。

今年理论方向我们做了一些文章,主要内容是分析浅层网络梯度下降非凸优化的收敛性质。首先是上半年我自己ICML的这篇(https://arxiv.org/abs/1703.00560),分析了带一层隐层的网络,且输入为高斯分布时的收敛性情况。这篇文章,尤其是去年在ICLR 17 workshop上发表的不完全版,可以算是此方向的头一篇,给分析神经网络的非凸问题提供了一个思路。之后CMU的杜少雷过来实习,又出了两篇拓展性的文章。两篇都在浅层卷积网络上做了分析,一篇(https://arxiv.org/abs/1709.06129)去掉了高斯假设,在一般的输入分布下可以证明梯度下降收敛;另一篇(https://arxiv.org/abs/1712.00779)则在高斯假设下分析同时优化两层权重时的情况,证明了并非所有局部极小都是全局最小,这个就推翻了之前很多论文力图推动的方向。



这整个方向背后是对于深度学习原理的探讨和严格化定量化的努力。很容易证明一般的非凸优化要得到最优解至少得要进行地毯式轰炸,做指数级的穷举;而神经网络的效果如此之好,一定有它超出一般非凸优化的特殊原因。我的猜想是因为数据集的“自然”分布和特定的网络结构(如卷积)联合起来导致的结果。这种思路同时也将“最优化得到的解”和机器学习中提的“泛化能力”结合了起来——如果解是因为数据分布而收敛得到的,那当然也能适应于服从同样分布的测试样本,这样泛化能力就有了保证。这样的想法也和我在博士阶段的工作一脉相承:即利用输入数据分布的特殊结构(如图像扭曲操作的群结构),构造新的算法,使得在同样保证恢复未知参数的条件下,样本复杂度更低。

接下来,如何将“自然”分布严格化定量化,如何证明在实际系统中用的多层非线性网络结构能抓住这个自然分布并且收敛,就是最大的问题。希望我们在2018年继续能做出有意思的工作来。

附带说一句,就算是较为理论的方向,今年的竞争也比较激烈,我在投完ICML之后一周,就看到Arxiv上有一篇相似的工作出现,第一部分和我推导出的结论完全一样,只是方法不同,可见人工智能领域竞争的激烈程度。



另一个方向是强化学习和游戏。今年我们主要做了系统方面的工作,一个是快速轻量灵活的ELF强化学习训练平台( https://arxiv.org/abs/1707.01067,见《黑暗森林中的光之精灵》https://zhuanlan.zhihu.com/p/27763940一文,代码在https://github.com/facebookresearch/ELF ),这个工作已经被今年的NIPS接收为Oral并且演讲( http://yuandong-tian.com/nips17_oral_final.pdf )过了。ELF用多线程代替多进程进行强化学习的训练,并且简化Python的接口设计,让只看过教科书的强化学习新人们都能有效率地训练模型。之后我们在ELF上面搭建了一个微缩版的即时战略游戏MiniRTS。MiniRTS可以以极快的速度模拟(单核4万帧每秒,在服务器上运行1万局游戏评估模型性能只需2分钟),有利于在有限资源限制下的即时战略游戏AI研究。在MiniRTS上我们用Actor-Critic模型训练出一些有意思的人工智能。在这个基础上,我们继续试验了各种参数组合,分析了训练所得智能的一些行为,并且尝试基于模型的强化学习(model-based RL),获得了一些结果,这篇是放在今年的NIPS Deep RL Symposium上,见这里



还有一个平台是利用现存四万多人工设计的三维房屋(SUNCG数据集)构造出的House3D平台(代码已经开源https://github.com/facebookresearch/House3D ),在这个平台中我们可以让智能体看到当前视野中的各种物体,获取深度信息和物体类别标注,还可以四处行走探索并遵循基本物理规律。我们挑选了200间房屋进行寻路训练,并且在50间新房屋中确认了寻路智能的泛化能力。这篇也在NIPS Deep RL Symposium上亮相( http://t.cn/RHfeeS5 )

明年我们会尝试各种强化学习的已有算法,诸如层次式强化学习(Hierarchical RL),基于模型的强化学习(model-based RL)等等,并且设计新算法,一方面让我们的智能体变得更聪明,另一方面也希望构建一个公开标准的强化学习算法平台库,让大家都能重复(深度)强化学习这个方向的工作,从而推动整个领域的发展。

我这次回来很多人询问我们组(Facebook AI Research,FAIR)的情况。我们组目前有一百人出头一点,分散在四个不同的地方(加州硅谷,纽约,法国巴黎,及加拿大蒙特利尔),硅谷和纽约人多一些,各约40多人。总的来说,我们组还是不错的,研究方向较为自由,计算资源比较丰富,注重文章发表和开源共享,全年招实习生和全职。我现在作为研究经理(Research Manager)负责加州硅谷的强化学习研究,欢迎大家踊跃投送简历,我的邮箱是 yuandong@fb.com 。


————— 新人福利 —————

关注AI 科技评论,回复 1 获取

【数百 G 神经网络 / AI / 大数据资源,教程,论文】


—————  AI 科技评论招人了  —————

AI 科技评论期待你的加入,和我们一起见证未来!

现诚招学术编辑、学术兼职、学术外翻

详情请点击招聘启事


—————  给爱学习的你的福利  —————

上海交通大学博士讲师团队

从算法到实战应用,涵盖CV领域主要知识点;

手把手项目演示

全程提供代码

深度剖析CV研究体系

轻松实战深度学习应用领域!

详细了解请点击阅读原文

————————————————————

登录查看更多
0

相关内容

【CMU】深度学习模型中集成优化、约束和控制,33页ppt
专知会员服务
46+阅读 · 2020年5月23日
基于深度学习的行人重识别研究进展,自动化学报
专知会员服务
39+阅读 · 2019年12月5日
CMU博士论文:可微优化机器学习建模
专知会员服务
60+阅读 · 2019年10月26日
【学界】基于生成对抗网络的低秩图像生成方法
GAN生成式对抗网络
9+阅读 · 2018年7月13日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Simplifying Graph Convolutional Networks
Arxiv
12+阅读 · 2019年2月19日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
【CMU】深度学习模型中集成优化、约束和控制,33页ppt
专知会员服务
46+阅读 · 2020年5月23日
基于深度学习的行人重识别研究进展,自动化学报
专知会员服务
39+阅读 · 2019年12月5日
CMU博士论文:可微优化机器学习建模
专知会员服务
60+阅读 · 2019年10月26日
相关资讯
【学界】基于生成对抗网络的低秩图像生成方法
GAN生成式对抗网络
9+阅读 · 2018年7月13日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
相关论文
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Simplifying Graph Convolutional Networks
Arxiv
12+阅读 · 2019年2月19日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员