【伯克利博士论文】解耦视觉生成模型

**生成建模承诺为学习图像和视频等高维数据分布提供一种优雅的解决方案——但我们如何揭示和利用这些模型发现的丰富结构呢？**除了生成新样本之外，智能体还能如何利用 p(x) 作为了解世界运作方式的知识来源呢？本论文探讨了可扩展的归纳偏差，解锁了生成模型对视觉数据的解耦理解，从而实现更丰富的交互和控制。首先，我提出了一种将场景表示为特征“斑块”集合的方案，在这种方案中，生成对抗网络（GAN）无需任何标签就能学会将每个斑块绑定到其生成的图像中的不同对象上。这使得GAN能够更优雅地建模组合场景，而典型的无条件模型则受限于高度对齐的单对象数据。经过训练的模型表示可以很容易地进行修改，以反事实地操纵生成和真实图像中的对象。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-65.html

接下来，我考虑了在训练期间不对架构施加瓶颈的方法，从而使这些方法能够应用于更多样化、未经过滤的数据。我展示了扩散模型的内部可以被用于有意义地引导新样本的生成，而无需进一步的微调或监督。从去噪器激活的一小组原始属性中得出的能量函数可以组合起来，对迭代扩散采样过程施加任意复杂的条件。这使得能够控制任何可以用文本描述的概念的属性，例如位置、形状、大小和外观。我还证明，文本到图像模型学习到的分布可以被蒸馏以生成组合性3D场景。主流方法专注于孤立地创建3D对象，而不是包含多个实体交互的场景。我提出了一种架构，在对其进行优化使其输出位于图像生成器的流形上时，可以生成分解为其包含对象的3D场景。这为模型仅通过2D图像观察到的世界推断实际3D结构提供了证据。最后，我以一个视角总结了涌现、控制、可解释性和规模之间的相互作用，并尝试将这些主题与对智能的追求联系起来。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【剑桥大学博士论文】深度学习中的元学习、鲁棒性和二阶优化进展

专知会员服务

41+阅读 · 2024年5月5日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

24+阅读 · 2024年1月2日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日