视觉生成模型,尤其是扩散模型,在高质量视觉生成方面展示了令人惊叹的性能,越来越受到学术界和工业界的关注。代表性模型或工具,如DALLE-3 [1] 和 MidJourney,已经广泛应用于日常生活,帮助创作艺术作品或图片。然而,这些强大的工具也带来了潜在风险,因为它们可能被恶意使用来生成并传播不安全的内容,如色情和暴力图片,可能导致严重后果。在本文中,我们讨论了如何从不同方面使视觉生成模型更加可靠和可控。特别地,我们重点关注扩散模型,因为它们是目前最广泛使用的视觉生成模型。 首先,我们揭示了扩散模型中存在的潜在风险,表明在训练过程中,它们可能容易被插入(恶意的)隐形后门,这可能导致不可靠和有害的行为。为此,我们提出了一种新的双层优化框架来表述训练过程,可以通过提出的不同算法实例化,分别用于无条件和条件扩散模型。大量实验表明,后门可以在不影响模型正常性能的情况下有效插入,从而使后门更加隐蔽和稳健。同时,我们实证发现,目前各种防御方法无法缓解提出的隐形后门,增强了该方法在实际应用中的可用性。此外,所提出的隐形后门还可以直接应用于模型水印,用于在黑盒环境中进行模型所有权验证,进一步增强了该框架的意义。 接下来,我们重点讨论文本到图像的扩散模型的可控生成。我们介绍了MuLan,一种多模态大语言模型(Multimodal-LLM)代理,它可以根据文本提示逐步生成对象。MuLan首先将提示分解为几个子提示,每个子提示专注于一个对象。每个对象的生成都依赖于先前生成的对象。通过一个视觉语言模型(VLM)检查器,MuLan可以及时监控生成过程,并在每个生成阶段后自适应地修正可能的错误。MuLan大大提升了在文本提示中对象属性和空间关系的生成性能。通过GPT-4V [2] 和人类的评估,大量实验表明MuLan的卓越性能。此外,我们展示了MuLan可以在生成过程中启用人机交互,进一步增强生成过程的灵活性和效果。 https://lbezone.hkust.edu.hk/bib/991013340348103412#

成为VIP会员查看完整内容
7

相关内容

【HKUST博士论文】单视图图像的高质量3D生成
专知会员服务
11+阅读 · 1月21日
【ETHZ博士论文】与多机器人系统的直观与高效互动
专知会员服务
18+阅读 · 2024年11月29日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
28+阅读 · 2024年8月23日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关资讯
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员