扩散模型已成为图像、视频和音频生成领域占主导地位的一类生成模型。深度平衡(DEQ)模型是一种通过在前向传播过程中求解固定点来计算其内部表示的架构。尽管这两类模型看似不同,本论文探讨了它们之间的交集方法,以及DEQ在求解偏微分方程(PDE)和提升算法任务中的分布外(OOD)泛化能力方面的更广泛应用。 针对扩散模型,我们主要解决其采样速度缓慢的问题。通过将去噪扩散隐式模型(DDIM)重新表述为DEQ,我们实现了并行采样和通过隐式梯度进行高效模型反演。此外,我们展示了基于DEQ的架构如何实现扩散模型的参数高效蒸馏,从而达到单次前向过程即可生成图像的效果。我们还探讨了一类与扩散模型密切相关的生成模型——流模型(flow)的一个应用,即在更少的模型评估次数下求解线性逆问题。 在PDE的应用方面,我们研究了稳态PDE神经算子(neural operators)的架构设计空间。神经算子接受某一类PDE作为输入,并输出其解。我们证明了权重共享网络和DEQ是有效的架构选择,能够为稳态PDE问题中的神经算子提供强有力的归纳偏置。 最后,我们分析了DEQ模型在测试时对更复杂任务具备更强泛化能力的一个有趣特性,即通过增加计算资源来提升性能。我们发现,DEQ对复杂任务的泛化能力与系统的路径无关性密切相关——也就是说,在给予足够计算的前提下,系统趋于收敛至相同的稳态行为,无论初始状态如何。这一发现促使我们提出将路径无关性作为一种通用建模原则,以实现可扩展的测试时推理能力。 本论文提出了一系列实用方法,以提升扩散模型与DEQ模型在生成建模、偏微分方程求解和算法任务等方面的效率与应用价值。 在过去十年中,深度学习在多个领域取得了变革性突破,推动了生成建模、自然语言理解和自主决策等方向的发展。最先进的生成模型,如扩散模型(diffusion models)[Song and Ermon, 2019; Song et al., 2020b; Ho et al., 2020] 和生成对抗网络(GANs)[Goodfellow et al., 2014],能够以高度逼真的效果合成图像、视频和音频。大规模语言模型(LLMs)[Brown et al., 2020b; Hoffmann et al., 2022; OpenAI, 2023; Touvron et al., 2023; Anthropic, 2024; Yang et al., 2024] 显著推动了自然语言处理(NLP)技术的发展,在文本生成、机器翻译与推理任务中表现出色。这些进展也促成了诸如对话代理、代码生成工具 [Guo et al., 2024; Hui et al., 2024] 和自主决策代理 [Gao et al., 2024; Yao et al., 2022; Shinn et al., 2023; Liu et al., 2023b] 等系统的诞生。 深度学习还加速了众多科学研究领域的进展,包括气候建模 [Doury et al., 2023; Rasp et al., 2018; Scher, 2018]、蛋白质结构预测 [Jumper et al., 2021]、药物发现 [Pandey et al., 2022; Gupta et al., 2021b]、天体物理 [Zhao et al., 2023; Leung and Bovy, 2024]、医学影像 [Suganyadevi et al., 2022; Aggarwal et al., 2021]、材料科学 [Choudhary et al., 2022; Mishin, 2021] 以及计算流体力学 [Vinuesa and Brunton, 2022; Kochkov et al., 2021]。此外,深度强化学习在众多领域中通过利用神经网络逼近最优策略,实现了超越人类的表现 [Granter et al., 2017; Silver et al., 2017; Schrittwieser et al., 2020; Berner et al., 2019]。同样,深度学习显著提升了机器人学习能力,使机器人能在现实环境中感知、推理并采取行动 [Ahn et al., 2022]。 尽管取得了诸多成果,深度学习仍面临一些基本性限制。其中一个主要挑战是生成模型(如扩散模型)的效率问题。尽管扩散模型在图像 [Dhariwal and Nichol, 2021; Karras et al., 2022, 2024; Baldridge et al., 2024] 和视频生成 [Brooks et al., 2024; Veo-Team et al., 2024] 上取得了新的质量基准,但其迭代式采样过程导致采样效率较低,特别是在视频生成等需实时生成大量高分辨率帧的场景中尤为严重。因此,近年来,研究者广泛探索诸如蒸馏 [Salimans and Ho, 2022; Luhman and Luhman, 2021; Nguyen and Tran, 2023; Wang et al., 2024b; Kohler et al., 2024] 和一致性模型 [Song et al., 2023; Song and Dhariwal, 2023] 等加速采样的方法。 在语言模型方面,尽管其在NLP任务中表现出色,但它们在数学推理 [Mirzadeh et al., 2024; Toshniwal et al., 2024]、逻辑泛化 [Williams and Huckle, 2024; Wan et al., 2024] 和从简单问题推广到复杂问题的能力方面仍存在不足。虽然这些模型在训练分布内表现优异,但在面对分布外任务时往往表现不佳,反映出其在抽象推理能力上的根本性短板。此外,语言模型还易出现“幻觉”现象 [Huang et al., 2024; Li et al., 2024],即生成事实错误或误导性的信息,在医学诊断、法律分析和科学研究等高风险场景中带来挑战。 深度学习在科学研究中的应用也受到数据问题的严重制约。许多科学领域(如材料科学、基因组学、气候建模)所依赖的数据集往往规模小、噪声大且高度不平衡。这与训练基础模型所用的互联网级大规模数据形成鲜明对比,数据稀缺性使模型难以泛化 [Xu et al., 2023a; Dubois et al., 2022; Stephany and Earls, 2024],亟需更具鲁棒性的模型来提升低数据量场景下的性能。 本论文旨在解决上述部分限制,主要聚焦两类模型: 1)深度平衡模型(Deep Equilibrium Models, DEQ)[Bai et al., 2019],其通过求解前向传播过程中的固定点来计算内部表示; 2)扩散模型 [Song and Ermon, 2019; Song et al., 2020b; Ho et al., 2020],一种通过迭代去噪过程生成样本的生成模型。 尽管DEQ与扩散模型在结构上差异显著,本论文探索了二者的交汇点及DEQ在生成建模、偏微分方程(PDE)求解和算法泛化中的广泛应用。 本论文由以下三大挑战驱动: * 扩散模型中的慢采样问题:传统采样方法需要顺序执行,限制其实时应用能力。 * 稳态PDE求解中的架构设计问题:现有神经算子缺乏结构性归纳偏置,影响效率与泛化。 * 深度学习中的测试时泛化问题:普通非权重共享的神经网络在测试时难以泛化到更复杂任务。

本论文将上述挑战分别对应三个研究方向:


第一部分:高效采样与逆问题求解

第三章提出将Denoising Diffusion Implicit Model (DDIM) 重新表述为多变量固定点系统,通过DEQ结构实现并行采样。该方法无需训练,适用于多GPU并行,提高采样速度,并通过隐式梯度实现高效模型反演。 * 第四章进一步提出一种训练型方法实现单步采样,通过离线蒸馏技术构建参数高效模型,直接从高斯噪声生成图像。该模型采用DEQ架构,命名为Generative Equilibrium Transformer (GET),使用ViT主干与权重共享Transformer层,实现前向传播中的自适应计算。 * 第五章应用流模型(flow)求解线性逆问题。通过预训练的条件最优传输流模型,仅需少量步骤即可高效恢复高质量信号,优于基于扩散模型的训练自由方法。


第二部分:稳态偏微分方程求解

第六章系统研究了稳态PDE求解器的架构设计空间。与传统方法不同,DEQ通过引入权重共享的归纳偏置与PDE结构自然对齐。结果表明DEQ神经算子在效率与泛化能力上均优于非共享结构。


第三部分:测试时泛化与算法推理

第七章探讨DEQ在算法泛化中的作用。灵感来自人类在面对难题时增加思维时间,本研究展示DEQ通过权重共享与固定点求解,天然支持自适应计算量分配。实验证明,当模型收敛到路径无关的稳态行为时(即初始条件对结果无影响),DEQ能够显著提升在更复杂任务上的测试时泛化能力。


虽然本论文仅解决了现代深度学习的一部分问题,但面向未来,算法效率、数据效率、模型可解释性和可靠性仍是值得持续深入的关键方向。构建真正可泛化的人工智能系统,仍是一项具有深远影响的开放挑战。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】用于机器人规划与控制的可微凸模型
专知会员服务
22+阅读 · 2024年12月7日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
38+阅读 · 2024年10月21日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
26+阅读 · 2024年8月26日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员