在开放世界环境中部署机器学习模型时,如何确保其可靠性与安全性是当前人工智能安全研究中的核心挑战。本文旨在从算法设计理论基础两个维度出发,系统研究在分布不确定性未知类别情形下,从传统神经网络到现代基础模型(如大型语言模型(LLMs))所面临的关键可靠性问题。 本论文的主要挑战在于:如何评估现有机器学习算法的可靠性。当前主流模型通常仅关注在分布内(in-distribution, ID)数据上的误差最小化,却未充分考虑在分布外(out-of-distribution, OOD)情形下可能出现的不确定性。例如,广泛应用的经验风险最小化(empirical risk minimization, ERM)假设训练和推理阶段不存在分布漂移(即封闭世界假设)。在此假设下训练出的模型,往往在OOD数据上会做出过于自信的预测,这是因为其决策边界缺乏保守性。

为应对这一挑战,本文提出了一系列联合优化框架,目标是同时实现:(1) 对ID样本的准确预测,以及 (2) 对OOD数据的可靠处理。 为解决上述问题,我们提出了一种未知感知(unknown-aware)学习框架,使得模型无需预先了解未知类别的明确信息,便能够识别和处理新颖输入。具体而言,本文首先设计了几种新的异常样本合成范式(如 VOSNPOSDREAM-OOD),用于在训练阶段生成具有代表性的“未知”样本,从而在无需任何标注OOD数据的前提下,提升模型的分布外检测能力。 在此基础上,本文进一步提出了适用于真实环境的野外未知感知学习(SAL, unknown-aware learning in the wild)方法,通过利用未标注的部署数据来增强模型对OOD样本的可靠性。这些方法不仅提供了理论上的性能保证,还实证表明:可以有效利用大量未标注数据来检测并适应未知输入,从而在现实条件下显著提升模型的可靠性。 此外,本文还扩展了对大规模基础模型(包括最新的文本模型与多模态大型语言模型)的可靠性研究。提出了以下关键技术: * HaloScope:用于检测模型生成内容中的幻觉现象(hallucinations); * MLLMGuard:用于防御恶意提示(malicious prompts); * 对齐数据清洗技术:用于去除训练过程中的噪声或偏见反馈数据

通过缓解上述失败模式,本文提升了最前沿AI系统的交互安全性。 本研究不仅在方法论上具有创新性,在应用影响上也具有广泛意义:它们共同推动了可靠AI决策系统的构建,并奠定了未知感知学习作为未来主流范式的基础。我们希望这些工作能够激发更多关于分布外泛化与未知处理的研究,助力构建更加安全、稳健的智能系统,同时降低对人力干预的依赖。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETZH博士论文】深度神经网络的数学理解
专知会员服务
30+阅读 · 4月27日
【博士论文】在缺失数据情况下的深度自监督学习
专知会员服务
32+阅读 · 2024年12月27日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
27+阅读 · 2024年8月16日
【NUS博士论文】深度视觉算法的对抗鲁棒性研究
专知会员服务
32+阅读 · 2022年11月25日
【MIT博士论文】优化理论与机器学习实践
专知会员服务
94+阅读 · 2022年6月30日
专知会员服务
82+阅读 · 2020年12月18日
清华大学:从单体仿生到群体智能
专知
18+阅读 · 2022年2月9日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关资讯
清华大学:从单体仿生到群体智能
专知
18+阅读 · 2022年2月9日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员