近年的机器学习进展一方面释放出巨大的能力,另一方面也在数据隐私、合规使用与模型安全方面带来了显著的合规挑战。尽管已有相关监管规则被提出以应对这些问题,但要在实践中落实合规,离不开细致的量化与评估。许多机器学习系统在表面上看似私密、安全且可靠,但其内部往往潜藏削弱这些保证的脆弱性。 本论文汇集了我在攻读博士期间开展的一系列研究,核心聚焦于对机器学习系统内生风险的量化、评估与缓解。我们围绕当代机器学习中的四类关键风险展开讨论。第 2 章探讨数据隐私,重点研究模型如何泄露训练数据中的敏感信息——这在联邦学习等分布式框架中尤为突出。第 3 章关注数据使用审计这一挑战,这是满足诸如“被遗忘权”等合规要求的日益迫切的需要。随后在第 4 章,我们审视模型行为与安全,分析大型语言模型(LLMs)对绕过安全过滤器的“越狱(jailbreaking)”攻击的易感性。最后,第 5 章讨论评测的完整性:模型可能在广泛使用的基准上取得高分,却并未具备相应的真实能力,从而在评估中造成一种虚假的公平与可靠性印象。 为应对这些多维挑战,论文提出并实践了一套结构化的“三管齐下”方法论: (1) 形式化识别风险:通过剖析模型或系统的底层机制,明确定义具体风险; (2) 设计量化指标:提出新颖的度量标准,以客观刻画该风险的严重程度; (3) 定制化风险缓解:开发与风险相匹配的缓解方法,并使用前述指标验证其有效性。