【CVPR2025】个性化视觉与语言生成 - 专知VIP

会员服务 ·

7

CVPR 2025 · 大型多模态模型 · 个性化生成 ·

【CVPR2025】个性化视觉与语言生成

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大型多模态模型（如 GPT-4、Gemini、Chameleon）已发展为拥有数百万用户的强大工具。然而，这些模型仍然是通用模型，缺乏对特定用户概念的个性化知识。尽管已有研究探索了文本生成中的个性化问题，但尚不清楚这些方法如何扩展到新的模态，例如图像生成。本文提出了 Yo’Chameleon，首次尝试在大型多模态模型中研究个性化问题。给定某一特定概念的 3–5 张图像，Yo’Chameleon 通过软提示调优（soft-prompt tuning）嵌入主体特定的信息，以实现：(i) 回答关于该主体的问题；(ii) 重建像素级细节，在新背景中生成该主体的图像。 Yo’Chameleon 的训练过程包括： 1. 一种自我提示优化机制（self-prompting optimization mechanism），以平衡不同模态间的表现； 1. 一种**“软正样本”图像生成策略**（soft-positive image generation approach），用于在小样本条件下提升图像质量。

我们的定性与定量分析表明，Yo’Chameleon 能够以更少的 token 更高效地学习概念，并有效编码视觉属性，其表现优于现有提示方法基线。

成为VIP会员查看完整内容

9

相关内容

CVPR 2025

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

20+阅读 · 6月11日

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

专知会员服务

21+阅读 · 2024年12月24日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

20+阅读 · 2024年10月11日

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

专知会员服务

14+阅读 · 2024年10月7日

【KDD2024】Hypformer：在双曲空间中探索高效的双曲变换器

【KDD2024】Hypformer：在双曲空间中探索高效的双曲变换器

专知会员服务

19+阅读 · 2024年7月2日

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

专知会员服务

23+阅读 · 2024年3月26日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

25+阅读 · 2021年1月30日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Link Prediction Based on Graph Neural Networks

Arxiv

26+阅读 · 2018年2月27日

VIP会员

相关主题

大型多模态模型

个性化生成

相关VIP内容

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

20+阅读 · 6月11日

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

专知会员服务

21+阅读 · 2024年12月24日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

20+阅读 · 2024年10月11日

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

【NeurIPS 2024】分治与共识的结合：释放函数在代码生成中的强大力量

专知会员服务

14+阅读 · 2024年10月7日

【KDD2024】Hypformer：在双曲空间中探索高效的双曲变换器

【KDD2024】Hypformer：在双曲空间中探索高效的双曲变换器

专知会员服务

19+阅读 · 2024年7月2日

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

专知会员服务

23+阅读 · 2024年3月26日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

25+阅读 · 2021年1月30日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Link Prediction Based on Graph Neural Networks

Arxiv

26+阅读 · 2018年2月27日

微信扫码咨询专知VIP会员