目前,多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标,这使得模型很难适应自由文本中视觉concept的长尾分布,因此本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态的信息,来对文本和图像进行共同的推理。最终,MDETR在检测和多个下游任务上都取得了SOTA的性能。

成为VIP会员查看完整内容
18

相关内容

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
专知会员服务
110+阅读 · 2020年3月20日
目标检测新技能!引入知识图谱:Reasoning-RCNN
极市平台
12+阅读 · 2020年1月4日
CMU最新视觉特征自监督学习模型——TextTopicNet
人工智能头条
9+阅读 · 2018年7月29日
Arxiv
0+阅读 · 2021年9月26日
Arxiv
3+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关VIP内容
微信扫码咨询专知VIP会员