大型多模态模型(如 GPT-4、Gemini、Chameleon)已发展为拥有数百万用户的强大工具。然而,这些模型仍然是通用模型,缺乏对特定用户概念的个性化知识。尽管已有研究探索了文本生成中的个性化问题,但尚不清楚这些方法如何扩展到新的模态,例如图像生成。 本文提出了 Yo’Chameleon,首次尝试在大型多模态模型中研究个性化问题。给定某一特定概念的 3–5 张图像,Yo’Chameleon 通过软提示调优(soft-prompt tuning)嵌入主体特定的信息,以实现:(i) 回答关于该主体的问题;(ii) 重建像素级细节,在新背景中生成该主体的图像。 Yo’Chameleon 的训练过程包括: 1. 一种自我提示优化机制(self-prompting optimization mechanism),以平衡不同模态间的表现; 1. 一种**“软正样本”图像生成策略**(soft-positive image generation approach),用于在小样本条件下提升图像质量。

我们的定性与定量分析表明,Yo’Chameleon 能够以更少的 token 更高效地学习概念,并有效编码视觉属性,其表现优于现有提示方法基线。

成为VIP会员查看完整内容
1

相关内容

【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取
专知会员服务
20+阅读 · 2024年12月24日
【KDD2024】Hypformer:在双曲空间中探索高效的双曲变换器
【CVPR2024】VP3D:释放二维视觉提示以进行文本到三维生成
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【AAAI2024】公平感知的Transformer模型结构剪枝
专知会员服务
43+阅读 · 2023年12月27日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
专知会员服务
13+阅读 · 2021年10月11日
专知会员服务
23+阅读 · 2021年9月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知
25+阅读 · 2021年1月30日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
53+阅读 · 2018年12月11日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取
专知会员服务
20+阅读 · 2024年12月24日
【KDD2024】Hypformer:在双曲空间中探索高效的双曲变换器
【CVPR2024】VP3D:释放二维视觉提示以进行文本到三维生成
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【AAAI2024】公平感知的Transformer模型结构剪枝
专知会员服务
43+阅读 · 2023年12月27日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
专知会员服务
13+阅读 · 2021年10月11日
专知会员服务
23+阅读 · 2021年9月27日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
相关论文
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
53+阅读 · 2018年12月11日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
26+阅读 · 2018年2月27日
微信扫码咨询专知VIP会员