尽管文本到图像生成(T2I)技术取得了进展,但先前的方法常常面临文本-图像不对齐问题,例如生成图像中的关系混淆。现有的解决方案包括为了更好的组合理解而操纵跨注意力,或集成大型语言模型以改善布局规划。然而,T2I模型固有的对齐能力仍然不足。通过回顾生成模型和判别模型之间的联系,我们认为T2I模型的判别能力可能反映了它们在生成过程中的文本-图像对齐熟练程度。基于这一点,我们提倡增强T2I模型的判别能力,以实现更精确的文本到图像对齐生成。我们在T2I模型上构建了一个判别适配器,用以探测它们在两个代表性任务上的判别能力,并利用判别性微调来改善它们的文本-图像对齐。作为判别适配器的一个额外好处,自我修正机制可以在推理过程中利用判别梯度更好地将生成的图像与文本提示对齐。在包括分布内和分布外场景在内的三个基准数据集上进行的全面评估证明了我们方法的优越生成性能。同时,与其他生成模型相比,它在两个判别任务上达到了最先进的判别性能。代码可在 https://dpt-t2i.github.io/ 获取。

成为VIP会员查看完整内容
14

相关内容

【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
17+阅读 · 3月24日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
20+阅读 · 2021年11月29日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
19+阅读 · 2021年3月12日
专知会员服务
18+阅读 · 2020年9月11日
专知会员服务
41+阅读 · 2020年2月20日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【AAAI2021】对比聚类,Contrastive Clustering
专知
25+阅读 · 2021年1月30日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
9+阅读 · 2014年12月31日
Arxiv
153+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
392+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
17+阅读 · 3月24日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
20+阅读 · 2021年11月29日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
19+阅读 · 2021年3月12日
专知会员服务
18+阅读 · 2020年9月11日
专知会员服务
41+阅读 · 2020年2月20日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
9+阅读 · 2014年12月31日
相关论文
Arxiv
153+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
392+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
微信扫码咨询专知VIP会员