视频预测领域有哪些最新研究进展?不妨看看这几篇顶会论文

2020 年 1 月 2 日 PaperWeekly


作者丨文永亮

学校丨哈尔滨工业大学(深圳)硕士生

研究方向丨视频预测、时空序列预测


ICCV 2019




这是卡耐基梅隆和 Facebook 的一篇 paper,这篇论文的关键在于分解实体预测再组成,我们观察到一个场景是由不同实体经历不同运动组成的,所以这里提出的方法是通过隐式预测独立实体的未来状态,同时推理它们之间的相互作用,并使用预测状态来构成未来的视频帧,从而实现了对实体分解组成的视频预测。 


该论文使用了两个数据集,一个是包含可能掉落的堆叠物体 ShapeStacks,另一个包含人类在体育馆中进行活动的视频 Penn Action,并表明论文的方法可以在这些不同的环境中进行逼真的随机视频预测。



主要架构有下面三个部分组成: 


1. Entity Predictor(实体预测模块):预测每一个实体表示的未来状态;

2. Frame Decoder(帧解码器):从实体表示中解码成 frame;

3. Encoder(编码器):把 frame 编码成 u 作为 LSTM 的 cell-state 得到输出记录时序信息(最后其实就是 concat 进去,见如下)。


https://github.com/JudyYe/CVP/blob/c176a508e6cbddd60b932b76af8931f774e2efa0/cvp/graph.py#L349

obj_vecs = torch.cat([pose, bbox, diff_z], dim=-1)



模型将具有已知或者检测到的实体位置的图像作为输入。每个实体均表示为其位置和隐式特征。每个实体的表示为 表示为预测的位置, 表示为隐式特征,这样的分解方便我们高效地预测每一个实体的未来状态,给定当前实体表示形式和采样的潜在变量,我们的预测模块将在下一个时间步预测这些表示形式。 我们所学的解码器将预测的表示组合为代表预测的未来的图像。 在训练期间,使用潜在编码器模块使用初始帧和最终帧来推断潜在变量的分布。  

分解的思想一般都用 mask 来体现,就是把变化的与不变的用掩码表示后在组合起来,预测变化的部分,这是分而治之的思想。 

表示在 g 的网络结构下解码每一个实体的特征和空间掩码,让 W  表示类似 Spatial Transformer Networks 的空间变化网络,可以得到下面的实体的特征和掩码



通过权重掩码和各个特征的结合最后取平均,这样我们就得到图像级别的特征,即每一帧的特征,是常数的空间掩码(论文取值为 0.1),其组成的特征表示如下:



上面的公式很好理解,⊙ 是像素乘法,⊕ 是像素加法, 这个是加权后的背景特征与加权后的每个实体的特征的总和,最后除以权重和。 这样就得到了解码的结果。

编码器的作用是把各帧 编码成 u,u 的分布服从标准正态分布 ,所以需要拉近两者之间的 KL 散度,u 作为 cell-state 输入 LSTM 得到 表示时间序列的隐状态。

解码损失就是实体表示 经过解码与真实图像 的 L1 损失。


预测损失即为解码损失加上位置损失


其总的损失函数即三个损失的和。

ICLR 2019




当我们与环境中的对象进行交互时,我们可以轻松地想象我们的行为所产生的后果:推一颗球,它会滚走;扔一个花瓶,它会碎掉。视频预测中的主要挑战是问题的模棱两可,未来的发展方向似乎有太多。就像函数的导数能够预测该值附近的走向,当我们预测非常接近的未来时我们能够未来可期,可是当可能性的空间超出了几帧之后,并且该问题本质上变成了多模的,即预测就变得更多样了。



这篇把 GAN 和 VAE 都用在了视频预测里,其实 GAN-VAE 在生成方面早有人结合,只是在视频预测中没有人提出,其实提出的 SAVP 是 SV2P (Stochastic Variational Video Prediction) 和SVG-LP (Stochastic Video Generation with a Learned Prior) 的结合。


▲ SV2P网络结构


在训练期间,隐变量从中采样,对每一帧的生成都可以看作是对的重构,被 Encoder 编码为隐变量,前一帧与隐变量经过 G 模型之后得到预测帧要计算与当前帧的 L1 损失,使其生成要尽量相似。



在测试阶段我们的隐变量从先验分布直接采样,经过 G 生成下一帧的预测图,所以需要同时拉近的分布,其 KL 散度如下:



所以 G 和 E 的目标函数如下:



L1 损失并不是很能反映图像的相似度,既然文章是 VAE 和 GAN 的结合,所以在下面提出了判别器去评判图片质量。论文指出单纯的 VAE 更容易产生模糊图,这里加入的判别器是能够分辨出生成视频序列与真实视频序列,这里是比较意想不到的地方,因为这里没有使用直接的图像判别器,而是判别生成序列与真实序列,其 D 判别器的网络结构是使用了 3D 卷积基于 SNGAN 的,G 生成器是使用了 convLSTM 捕捉时空序列信息。



最后总的损失函数如下:



下面是论文中的实验结果:




ICCV 2019




Non-Local ConvLSTM 是复旦大学和 B 站的论文,其实这篇不太算视频预测方向,这是使用了在 ConvLSTM 中使用 Non-Local 结合前一帧增强图像减少视频压缩的伪影,是视频压缩的领域,但是对我有些启发,Non-Local 最初就是用于视频分类的。 

SSIM是用来评价整张图的质量,但是对于一张质量不好的图来说他的 patch 并不一定差,对于一张好图来说他的 patch 也不一定好,所以作者用 Non-Local 来捕捉两帧之间特征图间像素的相似性




ConvLSTM 可以表示成下面的公式:


hidden state  是从上一次的 hidden state  和  经过 ConvLSTM-cell 得到的。 


NL-ConvLSTM 是在 ConvLSTM 的基础上加了 Non-local 的方法,可以表示如下:



其中是当前帧与前一帧的的相似矩阵,这里的 Non-Local 的操作是一种特殊的 attention,这不是 self-attention,是比较前一帧获得相似矩阵再计算 attentionNLWrap 操作可以用数学表达如下:



这里的公式估计论文写错了,我认为是:



但是由于 Non-local 计算量太大,作者提出了两阶段的 Non-Local 相似度估计,即池化之后做相似度计算如下:


CVPR 2019




这是清华大学的一篇 paper,作者 Yunbo Wang 也是 Eidetic 3D LSTMPredRNN++PredRNN 的作者,自然时空序列的发生过程常常是非平稳( Non-Stationarity )的,在低级的非平稳体现在像素之间的空间相关性或时序性,在高层语义特征的变化其实体现在降水预报中雷达回波的积累,形变或耗散。



上图是连续 20 帧雷达图变化,其中白色像素表示降水概率较高。第二、第三、最后一行:通过不同颜色的边框表明相应局部区域的像素值分布、均值和标准差的变化。蓝色和黄色框表明着生成的非平稳变化过程,红色框表明了消散的过程,绿色框为形变过程。


▲ 左边为ST-LSTM (Spatio-Temporal LSTM),右边为加入了MIM模块的LSTM


这篇论文的主要工作就是构造了 MIM 模块代替遗忘门,其中这个模块分为两部分:MIM-N(非平稳模块),MIM-S(平稳模块)。



MIM-N 所有的门,,都用短期记忆的隐状态的帧差更新,因为这样强调了非平稳变换,最后得到特征作为 MIM-S 输入,MIM-S 会根据原记忆和特征差决定变化多少,如果很小,意味着并不是非平稳变化,即变化得平稳,MIM-S 很大程度会继续沿用如果很大,则会重写记忆并且更关注于非平稳变化。 


其数学表达式如下:


1. MIM-N:



2. MIM-S



这一篇的实验做的很全面,其效果如下,均达到了 state-of-the-art: 

Moving Mnist:




在数字集上的表现效果较好。 

Radar Echo:



其实可以看到 MSE 在预测第五帧才有明显的优势,CSI-40 和 CSI-50 其实并没有明显优势。

总结


视频预测是结合了时空序列信息的预测,其关键在于如何利用时序信息,ConvLSTM 就是把卷积直接与 LSTM 结合记录时序信息,而在 VAE 相关的模型中时间序列被编码成隐变量拼接起来。除了修改 LSTM-cell 的结构(e.g. MIM)或者其他的网络结构尝试捕捉其他信息,我们常见的一种思想就是分而治之,把变与不变用掩码区分出来,有点像我之前解读的一篇 BANet,这里的 CVP 方法甚至对实体直接进行预测,这些都是比较好的想法。



点击以下标题查看更多往期内容: 






#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 获取更多论文推荐

登录查看更多
0

相关内容

【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
94+阅读 · 2020年6月19日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
61+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
272+阅读 · 2020年1月1日
深度学习视频中多目标跟踪:论文综述
专知会员服务
94+阅读 · 2019年10月13日
ACL 2019 | 微软8篇精选论文解读,一览最新研究进展
微软研究院AI头条
12+阅读 · 2019年6月28日
CVPR 2019 | 微软亚洲研究院7篇精选论文解读
微软研究院AI头条
23+阅读 · 2019年6月18日
论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展
5篇顶会论文带你了解知识图谱最新研究进展
PaperWeekly
15+阅读 · 2019年2月21日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
【领域报告】图像OCR年度进展|VALSE2018之十一
深度学习大讲堂
9+阅读 · 2018年5月31日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
从2017年顶会论文看Attention Model
极市平台
5+阅读 · 2017年10月16日
Arxiv
9+阅读 · 2018年10月18日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
6+阅读 · 2018年6月21日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
94+阅读 · 2020年6月19日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
61+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
272+阅读 · 2020年1月1日
深度学习视频中多目标跟踪:论文综述
专知会员服务
94+阅读 · 2019年10月13日
相关资讯
ACL 2019 | 微软8篇精选论文解读,一览最新研究进展
微软研究院AI头条
12+阅读 · 2019年6月28日
CVPR 2019 | 微软亚洲研究院7篇精选论文解读
微软研究院AI头条
23+阅读 · 2019年6月18日
论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展
5篇顶会论文带你了解知识图谱最新研究进展
PaperWeekly
15+阅读 · 2019年2月21日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
【领域报告】图像OCR年度进展|VALSE2018之十一
深度学习大讲堂
9+阅读 · 2018年5月31日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
从2017年顶会论文看Attention Model
极市平台
5+阅读 · 2017年10月16日
相关论文
Top
微信扫码咨询专知VIP会员