ECCV 2022 | 港中文MMLab:基于Transformer的光流

2022 年 9 月 2 日 PaperWeekly


©PaperWeekly 原创 · 作者 | Zhaoyang Huang

单位 | 香港中文大学MMLab

研究方向 | 视觉关联性学习


Transformer 今年在图像领域展现出了很好地性能,相比于 CNN,它们的优势之一是基于注意力机制的长程建模能力。本文解读港中文 MMLab 在 ECCV 2022 上发表的论文《FlowFormer: A Transformer Architecture for Optical Flow》。这项工作提出了 FlowFormer 算法将 Transformer 结构结合进光流估计的框架中,显著提升了光流估计的性能。

只在 FlyingChairs+FlyingThings 上训练后,FlowFormer 在 Sintel Training 的 clean 与 final 两个子集中分别取得了 0.64 与 1.50 AEPE。与之前发表的最好结果(1.29 和 2.74)相比,误差下降了 50.4% 和 45.3%,体现了其卓越的泛化性。在公开的 Sintel benchmark(test)上,FlowFormer  在clean 和 final 两个子集中取得了 1.159 和 2.088 AEPE,降低了此前发表的最优误差(1.388 和 2.47)达 16.5% 和 15.5%。



论文标题:

FlowFormer: A Transformer Architecture for Optical Flow

收录会议:

ECCV 2022

论文主页:

https://drinkingcoder.github.io/publication/flowformer/





论文介绍

光流的目标是估计源图像中每个像素在目标图像的对应位置,在许多下游任务,如动作识别、视频修复、视频超分等任务中提供重要输入。本文首先简要介绍 RAFT。RAFT 先使用一个孪生 CNN 从一对 H x W 图像中抽取视觉特征,为所有像素对计算特征相似性形成一个 H x W x H x W 的 4D cost volume,然后使用一个卷积循环神经网络(Conv-GRU)从这个 cost volume 中获取特征,不断优化光流估计。

FlowFormer 基于 RAFT 的思想,探索了使用 Transformer 对其进行全方位改进,包含了以下重要模块:1)Alternate-Group Transformer (AGT)层,将 4D cost volume 投影至隐空间编码为cost memory;2) Recurrent Transformer Decoder,使用 dynamic positional cost query 循环的从 cost memory 中提取信息来优化光流估计;3)首次验证了使用 ImageNet 预训练的 Transformer 来编码图像特征可以提升光流估计性能。



光流估计中我们一般假设两幅图像中相应位置的外表不变,因此传统算法中光流被建模为优化问题,即在一些正则项约束下寻找两张图像中的对应位置使得对应位置的视觉相似性最大化。这种思想在深度学习时代也是针对光流估计的网络架构基本原则之一,表现为计算两张图像的视觉相似性(costs),学习编码 costs 并从中解码出光流向量。这在光流学习的标杆架构 PWC-Net 和 RAFT 中都得到了充分体现。

相比于 CNN,Transformer 破除了局部偏差(locality bias)并能进行长程建模。PerceiverIO 开创性的使用纯 Transformer 来学习光流估计,它直接对图像像素 tokenization 并用一个通用的输入-输出映射来学习光流估计。由于它没有用任何针对光流的信息,如视觉相似性,因此其需要大量的参数参数和训练数据来学习(约 80 倍的 RAFT 训练数据量)。因此我们提出一个问题:我们能否同时获益于 Transformer 的长程建模能力并从视觉相似性信息中估计光流?针对这个问题,该论文提出了 FlowFormer。




算法细节

AGT Cost Encoder:一种最简单的使用 Transformer 来编码 4D cost volume 的方法是直接将其转化为 cost token 后使用标准的 Transformer,如将每个 3 x 3 x 3 x 3 的 cost 通过 mlp 提取为 token,但是由于该策略在 4D cost volume 上会产生上千个 2D token,因此其占用的显存和算力都是不可接受的。

该论文观察到,对每个像素而言,光流估计的信息来源是当前像素与目标图像中所有像素的相似性,即 H x W 的 cost map。因此将每个像素的 cost map 投到同一个隐空间中形成 K 个 token,即从 H x W x H x W 的 4D cost volume 转化成H x W x K 个 token,其中每个 token 维度为 D。在此基础上我们使用轮换分组(alternate-group)Transformer 对这些 token 进行编码。

具体来说,FlowFormer 进行两种分组:第一种有 H x W 组,每组 K 个 token,这样每组对应一个原图中的像素而组内 token 编码了该像素对应的 cost map 信息;第二种有 K 组,每组 H x W 个 token,这样每组对应一种隐空间特征而组内 token 编码了所有原图像素的该特征。

AGT 轮流使用这两种分组,对组内的 token 使用 Transformer 编码,这样信息可以在所有 token 之间进行传播但算力相比同时对所有 token 使用 Transformer 又大幅下降。我们使用了三层 AGT,最终得到 H x W x K 个 token,并将其作为编码后的 cost memory。


Recurrent Transformer Decoder with Dynamic Positional Cost Query:FlowFormer 迭代的使用当前估计的光流从 H x W x K cost memory 中来提取信息优化光流估计:
1. 根据当前的光流估计生成 Query(Dynamic Positional Cost Query),具体来说,给定一个源图像素的位置 与当前估计的光流 ,我们可以计算得到该像素对应到目标图的 位置以及该位置的 9 9 的局部 cost;
2. 根据 cost memory 生成 Key ( ) 和 Value () );
3. 使用注意力机制提取信息



然后从得到的信息估计 f(x) 来优化光流估计: 。该论文参考 RAFT 的机制使用循环卷积神经网络不断迭代优化光流估计。
4. 使用预训练的 Transformer 来提取图像特征:在目前的 Transformer 架构中,Twins-SVT 对图像尺寸的变化敏感性较低,相比于经典的 ViT 需要的算力较小,因此 FlowFormer 使用 Twins-SVT Large 的前两个阶段来提取图像特征,并使用 ImageNet 预训练的参数来初始化网络。




实验效果
该论文在 Sintel 和 KITTI 两个数据集上评测 FlowFormer。Sintel 有两个子集:clean 子集与 Final 子集的内容相同,但是 Final 子集中的图像存在运动模糊往往更为困难。



泛化性:在 FlyingChairs 于 FlyingThings(C+T)上训练,在 Sintel 与 KITTI 的训练集上计算光流误差,这种方法能评测光流模型的泛化性。如上表所示,FlowFormer 在 Sintel 训练集 clean 与 final 两个子集上的误差分别是 0.64 和 1.50,在 KITTI-15 训练集的 F1-epe 与 F1-all 分别达到了 4.09 和 14.72。与 GMA 相比,FlowFormer 在 Sintel 训练集两个子集上分别减少了 50.4% 与 45.3% 的误差,在 KITTI-15 F1-all 上减少了 13.9%,充分展示了 FlowFormer 优异的繁华性能。

Sintel Benchmark 上的精度分析:在 FlyingChairs、FlyingThings、Sintel 训练集这三个数据集上训练,在 Sintel 测试集上评测。FlowFormer 将误差降到了 1.16 和 2.09,下降比率达到了 16.5% 和 15.5%。

KITTI-15 Benchmark 上的精度分析:在 FlyingChairs、FlyingThings、Sintel 训练集、KITTI-15 训练集、HD1K 这五个数据集上训练,在 KITTI-15 测试集上评测。FlowFormer 排名第二,比S-Flow稍差(-0.85%),但是在 Sintel Benchmark 上 S-Flow 远差于 FlowFormer(在 clean 好 final 两个子集上误差大了 31.6% 和 22.5%)。S-Flow 根据修正后的 cost map 来计算坐标期望值作为光流估计。在 KITTI 中图像内容大多是刚体,因此对应的光流更简单,这更适合这种基于 cost map 的坐标期望,但是这不适用于非刚体场景,如Sintel数据集。




可视化结果
对比 Sintel 上 FlowFormer 与 GMA 的光流估计可视化结果(下图所示),FlowFormer 大量减少了物体边界上光流估计的溢出效应(红色箭头所指)并产生了更清晰的细节(蓝色箭头所指)。


视频序列的可视化对比与结果。


YouTube链接:
https://www.youtube.com/watch?v=wPnkbrvqUOk&list=PL6liSIqFR4BU-QdZjL7eW1vPbPnEchXmj&ab_channel=ZhaoyangHuang

bilibili链接:
https://www.bilibili.com/video/BV1qB4y1i7qu?spm_id_from=333.337.search-card.all.click

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

登录查看更多
0

相关内容

【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
40+阅读 · 2022年3月12日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
29+阅读 · 2021年10月13日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
ECCV 2020 五项大奖出炉!普林斯顿邓嘉获最佳论文奖
专知会员服务
17+阅读 · 2020年8月25日
ECCV 2022 | 基于双路图补全的物体放置
PaperWeekly
0+阅读 · 2022年8月29日
YOLO简史
计算机视觉life
27+阅读 · 2019年3月7日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月28日
Arxiv
0+阅读 · 2022年11月26日
Arxiv
15+阅读 · 2022年6月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
40+阅读 · 2022年3月12日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
29+阅读 · 2021年10月13日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
ECCV 2020 五项大奖出炉!普林斯顿邓嘉获最佳论文奖
专知会员服务
17+阅读 · 2020年8月25日
相关资讯
ECCV 2022 | 基于双路图补全的物体放置
PaperWeekly
0+阅读 · 2022年8月29日
YOLO简史
计算机视觉life
27+阅读 · 2019年3月7日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年11月28日
Arxiv
0+阅读 · 2022年11月26日
Arxiv
15+阅读 · 2022年6月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
27+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员