从俄罗斯方块到星际2，全都用得上：DeepMind无监督分割大法，为游戏而生

会员服务 ·

从俄罗斯方块到星际2，全都用得上：DeepMind无监督分割大法，为游戏而生

2019 年 3 月 27 日 量子位

方栗子发自凹非寺
量子位报道 | 公众号 QbitAI

只给AI喂一张图片。

画里的各种物件，瞬间变成了独立的个体。可以移动起来，可以变形变色，毫无PS痕迹。

就连绿色的地板和黄色的墙，都不用安然站在那里不动：

这段表演，来自DeepMind最新发布的神经网络MONet (简称“莫奈”) 。

它把每个物体，圆满地从背景里分离出来。这样的技能，完全是在无监督的学习过程中解锁的。

与莫奈一同发布的，还有一只叫做IODINE (简称“碘”) 的网络。

它也是无监督网络，也可以让画面里的每一个角色，都成为独立的自我，随意奔跑，野蛮生长。

不过，这两个网络用的分割方法，还是非常不同的：

莫奈与碘

莫奈 (MONet) ，是从背景开始，每次只分割出一个物体。

一步一步叠加上去。如下图，橘黄色→黄色→绿色→蓝色：

那么，来仔细认识一下莫奈的网络结构。

它是一只VAE (变分自编码器) 和一只注意力网络的结合：

注意力网络是循环 (Recurrent) 出现的，它会不断地产生掩膜 (Mask) ，不断地对VAE做出调整。

每一步里，注意力网络都是不同的，是随着上一步分割出的场景而变化的。这样，每一步输出的重构图也是不同的。

最终，会集齐画面里的所有物体。这时候，每个存在都是独立的了。

你看，学打星际2的强化学习AI，要先了解敌人的行动规律。这时候，MONet就可以帮忙：

而与莫奈不同，碘 (IODINE) 不会一次只分一个物体。它会直接生成全场的分割图：

一开始是全然靠猜，然后会在一次一次迭代里面，不断细化 (Refine) 这个分割结果。

具体到网络结构上看，首先是这里的VAE和莫奈不一样。

莫奈的是普通VAE (下图左) ，碘的是多物体VAE (下图右) ：

多物体VAE每一次工作，都会把画面里的所有物体，从背景里分割出来。

然后，怎样从一开始纯猜的各种后验参数λ，进化到最终的精确分割呢？

需要一个迭代推理过程：

思路是来自Marino等人2018年发表的迭代摊销推理 (Iterative Amortized Inference) 方法，这里先不详细介绍了 (文底有传送门) 。

不过，团队说这样的方法，可以让模型解锁多重稳定性 (Multi-Stability) ，和人类的感知相近了。

你看，就算只给出“一坨“俄罗斯方块，AI也能把它分成几块独立的形状：

有了莫奈和碘的分解大法，AI的表征学习 (Representation Learning) 便可得心应手。

瑟瑟发抖

团队说，一开始想做这样的网络，就是要给强化学习AI打游戏用的。

曾经在星际II的战场上，神族最强十人之一的LiquidMaNa，与DeepMind人工智能选手AlphaStar对战五局，双方都是神族。

MaNa全部GG。最短的一局，只有5分36秒。

而DeepMind每一日都在进化自家的算法，每一日都在开发新的算法。

人类下一个瑟瑟发抖的日子，可能很快就要来了。

MONet论文传送门：
https://arxiv.org/abs/1901.11390

IODINE论文传送门：
https://arxiv.org/abs/1903.00450

Iterative Amortized Inference论文传送门：
https://arxiv.org/abs/1807.09356

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

订阅AI内参，获取AI行业资讯

加入社群

量子位AI社群开始招募啦，量子位社群分：AI讨论群、AI+行业群、AI技术群；

欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“微信群”，获取入群方式。（技术群与AI+行业群需经过审核，审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

登录查看更多

相关内容

MONET

关注 0

MONET:Mobile Networks & Applications。 Explanation：移动网络与应用。 Publisher：Springer。 SIT：Mobile Networks & Applications

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

签证搞不定，没空去开会？David Abel《NeurIPS 2019顶会笔记》70页pdf看一下会议重点

专知会员服务

50+阅读 · 2019年12月16日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【ICML2019 tutorial】永无止境的学习（Never-Ending Learning），Tom M. Mitchell，Partha Talukdar

专知会员服务

20+阅读 · 2019年6月10日

DeepMind大放送：开放4个多物体表征学习数据集，还有一篇智能体新研究

中国人工智能学会

3+阅读 · 2019年9月12日

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

量子位

8+阅读 · 2019年7月9日

GAN用于无监督表征学习，效果依然惊人……

机器之心

12+阅读 · 2019年7月9日

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

量子位

6+阅读 · 2019年5月3日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

最强读心术！脑波直接转语音，你的秘密已无处藏身 | Nature子刊

量子位

4+阅读 · 2019年2月2日

天才也勤奋！DeepMind哈萨比斯自述：领导400名博士向前，每天工作至凌晨4点

量子位

8+阅读 · 2018年12月17日

AI学会了视觉推理，“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

量子位

6+阅读 · 2018年3月31日

马库斯：DeepMind新出的机器心智网络不错，但有误导性

量子位

3+阅读 · 2018年2月26日

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

PingWest品玩

4+阅读 · 2017年10月20日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Recurrent Event Network for Reasoning over Temporal Knowledge Graphs

Arxiv

6+阅读 · 2019年6月4日

Panoptic Feature Pyramid Networks

Arxiv

3+阅读 · 2019年1月8日

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Do deep reinforcement learning agents model intentions?

Arxiv

5+阅读 · 2018年5月21日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

Dual Path Networks for Multi-Person Human Pose Estimation

Arxiv

3+阅读 · 2017年10月27日

Recurrent Instance Segmentation

Arxiv

5+阅读 · 2016年10月24日

VIP会员