We propose a novel end-to-end solution for video instance segmentation (VIS) based on transformers. Recently, the per-clip pipeline shows superior performance over per-frame methods leveraging richer information from multiple frames. However, previous per-clip models require heavy computation and memory usage to achieve frame-to-frame communications, limiting practicality. In this work, we propose Inter-frame Communication Transformers (IFC), which significantly reduces the overhead for information-passing between frames by efficiently encoding the context within the input clip. Specifically, we propose to utilize concise memory tokens as a mean of conveying information as well as summarizing each frame scene. The features of each frame are enriched and correlated with other frames through exchange of information between the precisely encoded memory tokens. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (AP 44.6 on YouTube-VIS 2019 val set using the offline inference) while having a considerably fast runtime (89.4 FPS). Our method can also be applied to near-online inference for processing a video in real-time with only a small delay. The code will be made available.


翻译:我们建议基于变压器的视频实例分割(VIS)新颖的端对端解决方案。 最近, 单剪管显示, 利用多个框架的更丰富信息, 相对于每个框架的优势性能。 但是, 以往的每剪机需要大量的计算和记忆使用, 以实现框架对框架的通信, 限制了实用性。 在这项工作中, 我们提议跨框架通信变换器( IFC ), 通过在输入剪辑中有效地对上下文进行编码, 大幅降低框架之间信息传输的间接费用 。 具体地说, 我们提议使用简洁的记忆符号作为传递信息以及总结每个框架场景的手段。 每个框架的特征通过精确编码的记忆符号之间的信息交流而丰富并与其他框架相关。 我们在最新的基准集上验证我们的方法, 并实现最新艺术性表现( AP 44.6 on YouTube-VIS 2019 val supet ), 同时相当快的运行时间( 89.4 FPS) 。 我们的方法还可以被应用到近线上的推导推导, 在实时处理视频时只有少量的延迟。 代码。

1
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
109+阅读 · 2020年3月12日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关VIP内容
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
109+阅读 · 2020年3月12日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Top
微信扫码咨询专知VIP会员