目前,多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标,这使得模型很难适应自由文本中视觉concept的长尾分布,因此本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态的信息,来对文本和图像进行共同的推理。最终,MDETR在检测和多个下游任务上都取得了SOTA的性能。