【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理 - 专知VIP

会员服务 ·

0

检测器 · 多模态推理 · ICCV 2021 ·

2021 年 7 月 29 日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

目前，多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标，这使得模型很难适应自由文本中视觉concept的长尾分布，因此本文提出了MDETR，一种端到端调制检测器，能够根据原始文本query直接来检测图像中的目标，基于Transformer的结构，通过在模型的早期阶段融合这两种模态的信息，来对文本和图像进行共同的推理。最终，MDETR在检测和多个下游任务上都取得了SOTA的性能。

成为VIP会员查看完整内容

19

相关内容

检测器

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

10+阅读 · 2021年8月12日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

CVer

5+阅读 · 2019年8月3日

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

机器之心

4+阅读 · 2019年4月22日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年3月22日

ClipMatrix: Text-controlled Creation of 3D Textured Meshes

Arxiv

0+阅读 · 2021年9月27日

Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition

Arxiv

8+阅读 · 2020年12月4日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

VIP会员

相关主题

多模态推理

相关VIP内容

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

10+阅读 · 2021年8月12日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

《多域时代中维持弹性军事训练：挑战与机遇》

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

相关资讯

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

CVer

5+阅读 · 2019年8月3日

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

机器之心

4+阅读 · 2019年4月22日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年3月22日

相关论文

ClipMatrix: Text-controlled Creation of 3D Textured Meshes

Arxiv

0+阅读 · 2021年9月27日

Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition

Arxiv

8+阅读 · 2020年12月4日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

微信扫码咨询专知VIP会员