CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型 - 专知

会员服务 ·

0

CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型

2021 年 5 月 1 日 机器之心

机器之心专栏

作者单位：中科院自动化所、字节跳动

来自中科院自动化所、字节跳动的研究者提出了一种高性能的指代性分割基准模型，与之前的最佳结果相比，该方法可以获得更好的分割效果。

如何通过自然语言定位并分割出场景中的目标物体？比如给定一张图片，语言指示「分割出穿白色衬衫的人」。这个任务在学术界叫做指代性物体分割（Referring Image Segmentation）。目前指代性分割的工作通常着重于设计一种隐式的递归特征交互机制用于融合视觉 - 语言特征来直接生成最终的分割结果，而没有显式建模被指代物体的位置。

为了强调语言描述的指代作用，来自 中科院自动化所、字节跳动的研究者将该任务解耦为先定位再分割的方案（LTS，Locate then Segment） ，它在直观上也与人类的视觉感知机制相同。比如给定一句语言描述，人们通常首先会注意相应的目标图像区域，然后根据对象的环境信息生成关于对象的精细分割结果。该方法虽然很简单但效果较好。在三个流行的基准数据集上，该方法大幅度优于所有以前的方法。这个框架很有希望作为指代性分割的通用框架。

论文地址：https://arxiv.org/abs/2103.16284

引言

指代性分割旨在为自然语言表达所描述的图像生成对应的分割结果。除了语义分割面临的问题，图像和语言之间的语义鸿沟也是该任务的一个重要挑战。现有的指代性图像分割方法通常利用卷积神经网络和递归神经网络来提取图像特征和语言特征，然后使用多模态交叉注意和循环 ConvLSTM 用于融合视觉和文本特征来得到一个粗糙的分割。最后进一步将 DenseCRF 用作后处理，来获得最终的精细分割结果。这些方法主要集中在如何融合图像特征和语言特征，它们通常使用复杂的网络架构，此外，这些方法没有明确地定位由语言表达指代的对象，而仅利用耗时的后处理来生成最终的精细分割。

本文从另外的角度看待这个问题：将指代性图像分割任务分解为两个子序列任务：

1. 被指代对象的位置预测。通过位置建模可以显式获取语言所指代的对象；

2.对象分割结果的生成。后续的分割网络则可以根据视觉环境信息来得到准确的轮廓。

方法

本文提出的模型主要包括 定位模块和分割模块 。

该研究提出的方法体系架构图。

其中定位模块旨在找到语言表达所指代的视觉区域。首先基于语言描述生成卷积核，然后使用该卷积核对提取到的多模态特征进行过滤来得到位置信息，其中被指代对象所在区域的响应得分应该高于无关的视觉区域，这也是一个粗略的分割结果。

为了得到精细的分割结果，分割模块将原始的多模态特征和位置先验进行拼接，然后利用一个分割网络去细化粗分割结果，它的主要结构是 ASPP，通过使用多个采样率在多个尺度上捕获对象周围的信息。

最后，为了获得更精确的分割结果，本文采用反卷积的方式对特征图进行上采样。

分割模块。

实验

本文提出的方法在三个通用的公开数据集 RefCOCO、RefCOCO + 和 RefCOCOg 上评估了模型的有效性。实验结果如下：

由结果可以看出，该研究提出的方法比之前性能最好的方法 CGAN 性能更高，尤其在 RefCOCO + 和 RefCOCOg 上可以提高大约 3%IoU。

此外，将定位模块中的过滤方式替换为 transformer 方式，使用多次过滤、更大的图像输入都可以进一步提高模型的性能。实验结果如下：

总结

本文针对指代性分割提出了一种简单而有效的方法。该方法将任务分解为两个子序列任务： 被指代对象位置预测和精细对象分割结果生成 。通过对位置进行显式建模，与之前的最佳结果相比，该方法可以获得更好的分割效果。大量的消融研究也证明了方法中每个组成模块都是有效的。

CVPR 2021 线下论文分享会

为更好的服务 AI 社区，促进国内计算机视觉学术交流，机器之心计划于 6 月 12 日组织大型「CVPR 2021 线下论文分享会」。

本次活动将设置 Keynote、论文分享和 Poster 环节 ，邀请顶级专家、论文作者与现场参会观众共同交流。欢迎论文作者、AI 社区从业者们积极报名参与。

点击阅读原文，了解详情并参与报名。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

2

相关内容

指代性分割

指代性分割

【CVPR2021】双图层实例分割，大幅提升遮挡处理性能

专知会员服务

18+阅读 · 2021年5月23日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】双级协作变换器Transformer图像描述生成

【AAAI2021】双级协作变换器Transformer图像描述生成

专知会员服务

27+阅读 · 2021年1月26日

【ECCV2020-旷视】利用边界特征做检测的BorderDet

专知会员服务

13+阅读 · 2020年9月19日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

推出 2020 年图像匹配基准和挑战赛

推出 2020 年图像匹配基准和挑战赛

谷歌开发者

5+阅读 · 2020年4月14日

CVPR2020 | 旷视提出Re-ID新方法，优化解决遮挡行人重识别问题

CVPR2020 | 旷视提出Re-ID新方法，优化解决遮挡行人重识别问题

CVer

3+阅读 · 2020年3月25日

CVPR 2020 | 让合成图像更真实，上交大提出基于域验证的图像和谐化

CVPR 2020 | 让合成图像更真实，上交大提出基于域验证的图像和谐化

极市平台

5+阅读 · 2020年2月27日

基于深度图像的多任务模板匹配对象检测，分割和位姿估计

基于深度图像的多任务模板匹配对象检测，分割和位姿估计

极市平台

3+阅读 · 2020年1月16日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

CVPR 2019 | 微软亚洲研究院7篇精选论文解读

CVPR 2019 | 微软亚洲研究院7篇精选论文解读

微软研究院AI头条

23+阅读 · 2019年6月18日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

机器之心

5+阅读 · 2018年3月1日

Online Ordering Platform City Distribution Based on Genetic Algorithm

Arxiv

0+阅读 · 2021年6月22日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Kernel Based Progressive Distillation for Adder Neural Networks

Arxiv

5+阅读 · 2020年9月29日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

Detect-to-Retrieve: Efficient Regional Aggregation for Image Search

Arxiv

5+阅读 · 2019年5月14日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

11+阅读 · 2019年4月1日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

W-net: Bridged U-net for 2D Medical Image Segmentation

W-net: Bridged U-net for 2D Medical Image Segmentation

Arxiv

20+阅读 · 2018年7月12日

Road surface 3d reconstruction based on dense subpixel disparity map estimation

Arxiv

3+阅读 · 2018年7月5日

Adversarial Structure Matching Loss for Image Segmentation

Arxiv

7+阅读 · 2018年5月18日

VIP会员

相关主题

指代性分割

中科院自动化所

中国科学院自动化研究所

相关VIP内容

【CVPR2021】双图层实例分割，大幅提升遮挡处理性能

专知会员服务

18+阅读 · 2021年5月23日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】双级协作变换器Transformer图像描述生成

【AAAI2021】双级协作变换器Transformer图像描述生成

专知会员服务

27+阅读 · 2021年1月26日

【ECCV2020-旷视】利用边界特征做检测的BorderDet

专知会员服务

13+阅读 · 2020年9月19日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

推出 2020 年图像匹配基准和挑战赛

推出 2020 年图像匹配基准和挑战赛

谷歌开发者

5+阅读 · 2020年4月14日

CVPR2020 | 旷视提出Re-ID新方法，优化解决遮挡行人重识别问题

CVPR2020 | 旷视提出Re-ID新方法，优化解决遮挡行人重识别问题

CVer

3+阅读 · 2020年3月25日

CVPR 2020 | 让合成图像更真实，上交大提出基于域验证的图像和谐化

CVPR 2020 | 让合成图像更真实，上交大提出基于域验证的图像和谐化

极市平台

5+阅读 · 2020年2月27日

基于深度图像的多任务模板匹配对象检测，分割和位姿估计

基于深度图像的多任务模板匹配对象检测，分割和位姿估计

极市平台

3+阅读 · 2020年1月16日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

CVPR 2019 | 微软亚洲研究院7篇精选论文解读

CVPR 2019 | 微软亚洲研究院7篇精选论文解读

微软研究院AI头条

23+阅读 · 2019年6月18日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

机器之心

5+阅读 · 2018年3月1日

相关论文

Online Ordering Platform City Distribution Based on Genetic Algorithm

Arxiv

0+阅读 · 2021年6月22日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Kernel Based Progressive Distillation for Adder Neural Networks

Arxiv

5+阅读 · 2020年9月29日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

Detect-to-Retrieve: Efficient Regional Aggregation for Image Search

Arxiv

5+阅读 · 2019年5月14日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

11+阅读 · 2019年4月1日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

W-net: Bridged U-net for 2D Medical Image Segmentation

W-net: Bridged U-net for 2D Medical Image Segmentation

Arxiv

20+阅读 · 2018年7月12日

Road surface 3d reconstruction based on dense subpixel disparity map estimation

Arxiv

3+阅读 · 2018年7月5日

Adversarial Structure Matching Loss for Image Segmentation

Arxiv

7+阅读 · 2018年5月18日

大家都在搜

大型语言模型

久别重逢话双塔

国防科技创新

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员