【CVPR2024】用于文本到图像生成的判别性探测和调整 - 专知VIP

会员服务 ·

9

CVPR 2024 · 图像生成 ·

2024 年 3 月 11 日

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

尽管文本到图像生成（T2I）技术取得了进展，但先前的方法常常面临文本-图像不对齐问题，例如生成图像中的关系混淆。现有的解决方案包括为了更好的组合理解而操纵跨注意力，或集成大型语言模型以改善布局规划。然而，T2I模型固有的对齐能力仍然不足。通过回顾生成模型和判别模型之间的联系，我们认为T2I模型的判别能力可能反映了它们在生成过程中的文本-图像对齐熟练程度。基于这一点，我们提倡增强T2I模型的判别能力，以实现更精确的文本到图像对齐生成。我们在T2I模型上构建了一个判别适配器，用以探测它们在两个代表性任务上的判别能力，并利用判别性微调来改善它们的文本-图像对齐。作为判别适配器的一个额外好处，自我修正机制可以在推理过程中利用判别梯度更好地将生成的图像与文本提示对齐。在包括分布内和分布外场景在内的三个基准数据集上进行的全面评估证明了我们方法的优越生成性能。同时，与其他生成模型相比，它在两个判别任务上达到了最先进的判别性能。代码可在 https://dpt-t2i.github.io/ 获取。

成为VIP会员查看完整内容

15

相关内容

CVPR 2024

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

专知会员服务

23+阅读 · 2024年3月26日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【CVPR2024】扩散、关注、分割：使用稳定扩散进行无监督零样本分割

【CVPR2024】扩散、关注、分割：使用稳定扩散进行无监督零样本分割

专知会员服务

29+阅读 · 2024年2月27日

【AAAI2024】基于扩散语言模型的文本引导分子生成

【AAAI2024】基于扩散语言模型的文本引导分子生成

专知会员服务

29+阅读 · 2024年2月21日

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

专知会员服务

26+阅读 · 2024年1月31日

【NeurIPS2021】基于关联与识别的少样本目标检测

【NeurIPS2021】基于关联与识别的少样本目标检测

专知会员服务

24+阅读 · 2021年11月29日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

【WWW2021】用于用户冷启动推荐的任务自适应神经过程

专知会员服务

20+阅读 · 2021年3月12日

【CIKM2020】研究和减轻图卷积网络中度相关的偏差

专知会员服务

19+阅读 · 2020年9月11日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

25+阅读 · 2021年1月30日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

18+阅读 · 2019年2月12日

VIP会员

相关主题

相关VIP内容

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

专知会员服务

23+阅读 · 2024年3月26日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【CVPR2024】扩散、关注、分割：使用稳定扩散进行无监督零样本分割

【CVPR2024】扩散、关注、分割：使用稳定扩散进行无监督零样本分割

专知会员服务

29+阅读 · 2024年2月27日

【AAAI2024】基于扩散语言模型的文本引导分子生成

【AAAI2024】基于扩散语言模型的文本引导分子生成

专知会员服务

29+阅读 · 2024年2月21日

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

专知会员服务

26+阅读 · 2024年1月31日

【NeurIPS2021】基于关联与识别的少样本目标检测

【NeurIPS2021】基于关联与识别的少样本目标检测

专知会员服务

24+阅读 · 2021年11月29日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

【WWW2021】用于用户冷启动推荐的任务自适应神经过程

专知会员服务

20+阅读 · 2021年3月12日

【CIKM2020】研究和减轻图卷积网络中度相关的偏差

专知会员服务

19+阅读 · 2020年9月11日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

25+阅读 · 2021年1月30日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

18+阅读 · 2019年2月12日

微信扫码咨询专知VIP会员