【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

因果机器学习 (Causal ML) 处理多种任务，包括因果效应推断、因果推理和因果结构发现。本论文探讨了适用于大规模数据集和复杂高维输入/输出模式（如图像、文本、时间序列和视频）的因果机器学习方法中的不确定性。为了有效处理海量信息并预测复杂关系，可扩展性至关重要。随着模型规模的扩大和灵活性增强，传达未知信息变得愈发重要。我们研究了两种主要的不确定性类型：统计不确定性和结构不确定性。统计不确定性是在将机器学习模型拟合到有限数据集时产生的。解决这种不确定性可以预测一系列可能的因果效应，并随着训练样本的增加而缩小范围，从而有助于做出更明智的决策，并指出需要进一步理解的领域。结构不确定性则来自对因果结构的不精确认知，通常需要对数据生成过程或与世界的交互做出进一步假设。在本论文中，我们开发了能够有效应对统计和结构不确定性的可扩展因果机器学习方法。我们展示了在因果机器学习算法设计和应用中考虑可扩展性和不确定性的重要性，从而增强决策能力和知识获取。我们的研究贡献旨在推动因果机器学习领域的发展，并为未来研究奠定基础。

因果机器学习 (CML) 涵盖了多种任务，包括因果效应推断、因果推理、因果结构发现以及因果表示学习。CML 为数据驱动算法提供了一种系统的方法，通过整合领域知识、表达建模假设的丰富语言，以及理解机器学习预测失败原因的理论来增强其能力。本论文探讨了适用于大规模数据集并处理复杂高维输入输出模式（如图像、文本、时间序列和视频）的可扩展 CML 方法中的不确定性。在大数据时代及复杂的现实世界问题中，可扩展性至关重要，因为它使 CML 算法能够高效地处理和学习海量信息，同时建模预测复杂关系所需的上下文。

随着模型规模的扩大和灵活性的提升，传达未知信息变得越来越重要。挑战在于将系统化的分析不确定性的方法应用到可扩展的方法中。解决不确定性对于做出更明智的决策以及识别我们需要学习的内容至关重要。基于这一点，我们研究了两种主要的不确定性类型：统计不确定性和结构不确定性。统计不确定性，通常称为认知不确定性，出现在将机器学习模型拟合到有限数据集时。解决这种不确定性有助于预测一系列可能的因果效应，并随着训练样本数量的增加而缩小范围。这一数值范围不仅能够促进更明智的决策，还能指出我们需要进一步理解的状态或个体。然而，统计不确定性需要以正确的世界模型为前提。此时，结构不确定性变得相关，因为它源于对问题中潜在因果结构的不精确认知。通常，缓解结构不确定性需要对数据生成过程或与世界的交互做出进一步假设。尽管如此，CML 仍可以基于额外的领域知识传达因果关系的不确定性，从而更好地为决策提供信息。

在本论文中，我们开发了能够有效应对统计和结构不确定性的创新性可扩展 CML 方法和技术。我们展示了在设计和应用 CML 算法时考虑可扩展性和不确定性的重要性，因为它们增强了模型的鲁棒性和泛化能力。我们的贡献旨在推动 CML 领域的发展，并为未来在该领域的研究奠定坚实基础。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】高效且有效的基础大型多模态模型学习

专知会员服务

39+阅读 · 2024年10月21日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

专知会员服务

16+阅读 · 2024年10月7日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

31+阅读 · 2024年9月24日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日