**本文提出ODISE:基于开放词汇扩散的全景分割,将预训练的文本-图像扩散和判别模型统一起来,以执行开放词汇全景分割。**文本到图像扩散模型已经显示出了生成具有多种开放词汇语言描述的高质量图像的显著能力。这表明它们的内部表示空间与现实世界中的开放概念高度相关。另一方面,像CLIP这样的文本-图像判别模型擅长将图像分类为开放词汇表标签。本文建议利用这两个模型的冻结表示来对实际环境中的任何类别进行全景分割。所提出方法在开放词汇表全景任务和语义分割任务上都明显优于之前的技术水平。特别是,在仅进行COCO训练的情况下,所提出方法在ADE20K数据集上达到了23.4 PQ和30.0 mIoU,比之前的最先进水平有8.3 PQ和7.9 mIoU的绝对提升。项目页面可以在这个https URL中找到。
https://www.zhuanzhi.ai/paper/33848c7c700a2f8865607247b7663849