**生成建模承诺为学习图像和视频等高维数据分布提供一种优雅的解决方案——但我们如何揭示和利用这些模型发现的丰富结构呢?**除了生成新样本之外,智能体还能如何利用 p(x) 作为了解世界运作方式的知识来源呢?本论文探讨了可扩展的归纳偏差,解锁了生成模型对视觉数据的解耦理解,从而实现更丰富的交互和控制。 首先,我提出了一种将场景表示为特征“斑块”集合的方案,在这种方案中,生成对抗网络(GAN)无需任何标签就能学会将每个斑块绑定到其生成的图像中的不同对象上。这使得GAN能够更优雅地建模组合场景,而典型的无条件模型则受限于高度对齐的单对象数据。经过训练的模型表示可以很容易地进行修改,以反事实地操纵生成和真实图像中的对象。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-65.html

接下来,我考虑了在训练期间不对架构施加瓶颈的方法,从而使这些方法能够应用于更多样化、未经过滤的数据。我展示了扩散模型的内部可以被用于有意义地引导新样本的生成,而无需进一步的微调或监督。从去噪器激活的一小组原始属性中得出的能量函数可以组合起来,对迭代扩散采样过程施加任意复杂的条件。这使得能够控制任何可以用文本描述的概念的属性,例如位置、形状、大小和外观。 我还证明,文本到图像模型学习到的分布可以被蒸馏以生成组合性3D场景。主流方法专注于孤立地创建3D对象,而不是包含多个实体交互的场景。我提出了一种架构,在对其进行优化使其输出位于图像生成器的流形上时,可以生成分解为其包含对象的3D场景。这为模型仅通过2D图像观察到的世界推断实际3D结构提供了证据。最后,我以一个视角总结了涌现、控制、可解释性和规模之间的相互作用,并尝试将这些主题与对智能的追求联系起来。

成为VIP会员查看完整内容
25

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【北理&哈佛】图多模态学习的疾病关系提取
专知会员服务
32+阅读 · 2022年4月15日
论文浅尝 | 可建模语义分层的知识图谱补全方法
开放知识图谱
30+阅读 · 2020年3月8日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员