【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning - 专知VIP

会员服务 ·

0

CVPR 2022 · 知识蒸馏 · 跨模态解码器 · 语言与视觉 · 开放词汇单阶段检测 ·

2022 年 3 月 19 日

【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出了一个基于transformer的框架，通过建立文本关联的判别性特征和多阶段跨模态推理来实现准确的视觉定位（visual grounding）。具体来说，我们设计了一个视觉-语言验证模块（visual-linguistic verification module），使视觉特征关注于文本描述相关的区域，并抑制其它无关区域。同时我们还设计了一个语言指导的特征编码器（language-guided feature encoder）来聚合目标的视觉上下文，提高其特征辨别性。为了从建立的视觉特征中检索出目标，我们进一步提出了一种多阶段的跨模态解码器（multi-stage cross-modal decoder）来迭代推理图像和语言之间的相关性，从而准确定位目标。我们在RefCOCO、RefCOCO+和 RefCOCOg数据集上进行了实验，并取得了state-of-the-art的性能。

作者：Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang, Congxuan Zhang, and Weiming Hu

成为VIP会员查看完整内容

7

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

专知会员服务

12+阅读 · 2022年3月19日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

【CVPR2021】细粒度多标签分类

【CVPR2021】细粒度多标签分类

专知会员服务

61+阅读 · 2021年3月8日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

专知会员服务

22+阅读 · 2020年6月3日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

专知会员服务

54+阅读 · 2020年3月3日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

Fudan DISC推出跨视觉语言模态预训练模型MVPTR：多层次语义对齐实现SOTA（已开源）

Fudan DISC推出跨视觉语言模态预训练模型MVPTR：多层次语义对齐实现SOTA（已开源）

机器之心

0+阅读 · 2022年3月4日

学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！

学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！

PaperWeekly

0+阅读 · 2022年2月27日

VALSE 论文速览第43期：AOT for Video Object Segmentation

VALSE 论文速览第43期：AOT for Video Object Segmentation

VALSE

0+阅读 · 2022年1月22日

【速览】NeurIPS 2021 | 双流图像表征网络（Dual-stream Network）

【速览】NeurIPS 2021 | 双流图像表征网络（Dual-stream Network）

中国图象图形学学会CSIG

0+阅读 · 2021年12月20日

【干货】多文本人脸生成

【干货】多文本人脸生成

中国图象图形学学会CSIG

2+阅读 · 2021年12月14日

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

开放知识图谱

0+阅读 · 2021年10月16日

CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型

CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型

机器之心

2+阅读 · 2021年5月1日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

AI科技评论

15+阅读 · 2020年3月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

Survivin在低氧诱导喉癌淋巴管生成中的调控作用及其分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Hybrid加速结构的理论及预制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

基于跨媒体语义关联模型的图像检索技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于快速视觉注意模型和深度学习的视觉跟踪

国家自然科学基金

8+阅读 · 2013年12月31日

基于深度学习的层次化视觉注意模型研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

中文句法分析与语义角色标注的联合学习机制研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于多层次语言粒度的文本情感分类研究

国家自然科学基金

1+阅读 · 2008年12月31日

VSEGAN: Visual Speech Enhancement Generative Adversarial Network

Arxiv

0+阅读 · 2022年4月20日

Coarse-to-Fine Reasoning for Visual Question Answering

Arxiv

0+阅读 · 2022年4月19日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

VIP会员

相关主题

跨模态解码器

语言与视觉

开放词汇单阶段检测

相关VIP内容

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

专知会员服务

12+阅读 · 2022年3月19日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

【CVPR2021】细粒度多标签分类

【CVPR2021】细粒度多标签分类

专知会员服务

61+阅读 · 2021年3月8日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

专知会员服务

22+阅读 · 2020年6月3日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

专知会员服务

54+阅读 · 2020年3月3日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《分析与预测陆军战斗体能测试表现：统计与机器学习方法》2025最新137页

《军事行动中的人机协同共同学习》2025最新文献

代理式人工智能时代的决策优势

《F/A-18机队替换中队仿真模型的设计与分析》2025最新73页

相关资讯

Fudan DISC推出跨视觉语言模态预训练模型MVPTR：多层次语义对齐实现SOTA（已开源）

Fudan DISC推出跨视觉语言模态预训练模型MVPTR：多层次语义对齐实现SOTA（已开源）

机器之心

0+阅读 · 2022年3月4日

学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！

学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！

PaperWeekly

0+阅读 · 2022年2月27日

VALSE 论文速览第43期：AOT for Video Object Segmentation

VALSE 论文速览第43期：AOT for Video Object Segmentation

VALSE

0+阅读 · 2022年1月22日

【速览】NeurIPS 2021 | 双流图像表征网络（Dual-stream Network）

【速览】NeurIPS 2021 | 双流图像表征网络（Dual-stream Network）

中国图象图形学学会CSIG

0+阅读 · 2021年12月20日

【干货】多文本人脸生成

【干货】多文本人脸生成

中国图象图形学学会CSIG

2+阅读 · 2021年12月14日

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

开放知识图谱

0+阅读 · 2021年10月16日

CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型

CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型

机器之心

2+阅读 · 2021年5月1日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

AI科技评论

15+阅读 · 2020年3月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

相关基金

Survivin在低氧诱导喉癌淋巴管生成中的调控作用及其分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Hybrid加速结构的理论及预制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

基于跨媒体语义关联模型的图像检索技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于快速视觉注意模型和深度学习的视觉跟踪

国家自然科学基金

8+阅读 · 2013年12月31日

基于深度学习的层次化视觉注意模型研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

中文句法分析与语义角色标注的联合学习机制研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于多层次语言粒度的文本情感分类研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

VSEGAN: Visual Speech Enhancement Generative Adversarial Network

Arxiv

0+阅读 · 2022年4月20日

Coarse-to-Fine Reasoning for Visual Question Answering

Arxiv

0+阅读 · 2022年4月19日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

微信扫码咨询专知VIP会员