基础模型(Foundation Models, FM)已成为现代机器学习的核心,带来了零样本与小样本学习等强大能力。这些范式在泛化性与鲁棒性方面具有显著优势。然而,它们的广泛应用也带来了关键风险,包括隐私泄露、非预期记忆以及版权争议。

本论文从信息论的视角分析基础模型,聚焦于三个相互关联的领域:鲁棒性、隐私与版权/内容保护。首先,我们研究了在分布偏移(training 与 test 分布不一致)下的对比视觉-语言模型,并提出基于信息论的度量方法,用于量化并提升模型鲁棒性。

随后,我们将视角转向大语言模型(LLMs),其生成特性与大规模参数使得隐私与知识产权问题尤为突出。在这一背景下,我们首先从分词(tokenization)的角度研究其分布外(OOD)适应问题。我们分析了 OOD 数据如何导致更差的分词压缩率(以 token 数量衡量),从而造成计算效率下降。针对这一问题,我们提出了一种基于最优传输(optimal transport)的分词自适应方法,该方法不依赖平行数据。

除了分布偏移,AI 安全性也是本论文的另一核心关注点。在这一方面,我们首先探讨了遗忘(unlearning),即遗忘特定训练数据的任务。我们提出了一种高效的基于散度的审计工具,并展示了现有遗忘算法往往未能完全移除隐私信息。接着,我们研究了大语言模型中的记忆(memorization)现象,并提出了一种基于压缩的对抗式提示框架,用于度量压缩性记忆(compressive memorization)——这是版权侵权与安全风险的重要指标。为提升可扩展性,我们进一步引入了一种基于 token 稀疏性的高效近似方法。最后,我们考察了模型蒸馏中的内容风险,并提出反蒸馏采样(antidistillation sampling),通过扰动生成分布来阻止模型蒸馏器复制专有的推理轨迹。 综上所述,本论文提出了一个系统的信息论框架,用于理解并缓解基础模型中的关键脆弱性,为提升模型的鲁棒性、安全性与合规性提供了理论基础与实践工具。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETZH博士论文】语言模型编程
专知会员服务
23+阅读 · 6月14日
【博士论文】通过利用内在方法解释深度神经网络
专知会员服务
24+阅读 · 2024年7月20日
【博士论文】连接状态和行动:迈向持续强化学习
专知会员服务
24+阅读 · 2024年1月31日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
论文浅尝 | 面向单关系事实问题的中文问答模型
开放知识图谱
28+阅读 · 2019年2月11日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
480+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员