【EPFL博士论文】现代深度学习中的不确定性建模，169页pdf

在本论文中，我们聚焦于现代深度学习中的一个基本挑战：不确定性估计。尽管深度神经网络已在多个关键领域取得了显著成功——从机器人技术、大型语言模型到先进的信息检索系统——但它们在评估预测可信度方面的能力仍然有限。随着这些系统日益应用于高风险的现实场景中，这一缺口带来了重大挑战。随着机器学习的依赖性不断增强，对能够适应不确定性、具有鲁棒性与可靠性的模型的需求也随之增长。尽管不确定性估计的重要性日益凸显，但其在深度学习中的实际应用仍面临诸多挑战，包括可扩展性、效率以及适应性。我们首先着重解决当前深度学习方法中的一个核心问题：训练和推理过程中的计算复杂性。目前深度学习中最受欢迎、鲁棒且有效的不确定性估计方法之一——深度集成（Deep Ensembling）[LPB17]——在训练和推理两个阶段都存在显著的计算负担，使其在很多应用中变得不切实际。为了解决训练阶段的复杂性问题，我们提出了 Masksembles方法，该方法仅需训练一个模型，却能在推理时实现集成效果。这一策略显著降低了训练成本，同时保持了不确定性估计的质量。Masksembles 提高了计算效率，并在 MC-Dropout [GG16] 与深度集成方法之间实现了无缝插值，融合了两者的优势。我们在一个合成人群计数的实验中验证了该方法的有效性，在该场景中，训练于合成数据的模型常常难以适应真实图像的域转移问题。通过使用 Masksembles，我们构建了一个结合标注的合成图像与未标注的真实图像的训练流程，基于不确定性引导的伪标签方法 [LDF22] 实现了强健的跨域适应能力，在保持推理开销极低的同时，超越了当前的先进方法。此外，我们引入了神经网络在不确定性估计中的幂等性属性，并基于此提出了一种无需采样的新方法 ZigZag [DDLF24]，该方法具有效率高、通用性强的特点，并实现了业界领先的不确定性估计效果。ZigZag 通过训练神经网络在有无附加预测信息的情况下输出一致的结果，并以其差异度量不确定性。该方法在性能上可与深度集成方法媲美，但计算效率显著更高。在此基础上，我们进一步提出了 幂等测试时训练（Idempotent Test-Time Training, IT3） [DSO+24] 框架，这是一个领域无关的方法，旨在应对分布偏移问题。IT3 利用 ZigZag 提供的不确定性得分作为测试阶段的训练损失，在推理过程中将模型表示与训练分布对齐，从而提升性能。该框架适用于多种任务，且可无缝集成于任何模型架构中，包括 MLP、CNN 和 GNN，这一点是当前测试时训练方法所不具备的。最后，我们提出了一种针对迭代结构的不确定性估计方法 [DOL+24]，通过分析连续输出的收敛速率来量化不确定性。该方法实现了当前领先的估计质量，能够有效支持贝叶斯优化，在训练分布之外的空间中进行高效探索（例如空气动力学形状优化），同时在遥感图像中的道路检测任务中实现了高效的分布外检测。 关键词：不确定性估计，概率建模，异常值鲁棒性，分布外泛化，主动学习，贝叶斯优化

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【NTU博士论文】向着对抗腐败鲁棒的深度学习模型迈进，170页pdf

专知会员服务

26+阅读 · 2024年2月24日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

70+阅读 · 2024年1月24日

【MIT博士论文】可靠机器学习模型部署，279页pdf

专知会员服务

53+阅读 · 2023年11月21日

【MIT博士论文】人工智能系统的组合泛化，194页pdf

专知会员服务

58+阅读 · 2023年11月15日