异常检测(AD)算法在需要量化风险的领域中被广泛用于基于数据的决策支持,例如在公共健康保险中识别欺诈的医疗提供者、消费者贷款以及检测人类脑电图(EEG)记录中的异常模式。然而,由于数据模态的多样性(例如时间序列或结构数据)、数据规模、学习和评估的真实标签不可用,以及为特定领域问题产生人类可解释结果的难度,因此在决策支持中的AD具有挑战性。本文提出了应对这些挑战并构建具有以下期望属性的智能检测系统:无监督、可解释、可扩展和公平。在整个过程中,我们提出了新颖的AD算法,通过解决特定领域的关键挑战,如包括领域或专家知识、减少可能对少数群体产生不利影响的偏见,以及处理涉及一组行为者的异常行为,从而实现更好的决策支持。我们在公共医疗欺诈和健康监测方面展示了应用。

在这篇论文中,我研究了高风险领域(如公共健康和福祉、临床决策支持、金融)基于数据的决策支持中的挑战和机会。特别是,这篇论文重点研究了无监督和可解释的异常检测(AD)技术的开发,以增强人类的决策能力。无监督的AD技术识别罕见的事件和偏离描述正常行为的基础数据分布的观察。AD在需要量化风险的领域中有应用,例如在公共健康保险中识别欺诈的医疗提供者(Shekhar, Leder-Luis, and Akoglu, 2023)和检测人类脑电图(EEG)记录中的异常模式(Lee, Shekhar, Faloutsos, Hutson, and Iasemidis, 2021)。然而,由于数据模态的多样性(如时间序列或结构数据)和数据规模、学习和评估的真实标签不可用,以及为特定领域问题产生人类可解释结果的难度,因此在决策支持中的AD具有挑战性。因此,论文的目标是建立具有以下有助于决策支持的期望属性的智能检测系统:1. 无监督检测免除了人类专家费时的标记需求。2. 可解释的工具对用户友好,并帮助人类专家进行调查、验证和决策。3. 公平的检测避免了对边缘化群体的不公正影响,因为AD的偏见可能导致因其作为统计上的少数群体而对社会少数群体(如种族、性别等)进行不公正的标记,而少数群体的身份并不代表风险。为了实现这一总体目标,论文工作分解为主要在异常检测、可解释的机器学习和决策支持的实际数据挖掘应用中作出贡献的算法。

(A) 算法

第2章基于(Shekhar和Akoglu, 2018)提出了一个新颖的异常检测方法,该方法利用特权信息来提高无监督学习方法的准确性。假设我们的目标是根据手术前可用的信息x估计手术三周后的风险性。经典的检测器使用x学习标记风险病人的规则。但是,对于之前接受过手术的患者,存在关于手术期间的程序和并发症的信息,或手术后的一两周等。这种特定案例的知识的可用性相当普遍,而传统的检测器忽略了这些。由于这种领域知识只用于学习,而新的数据点(手术前的患者)不可用,所以它被称为特权信息(PI)。我们分析了如何增加领域知识可以帮助异常检测,不仅在测试时PI不可用(如传统设置)时,而且当测试时策略性和自愿地避免使用PI时。我们展示了如何将PI整合到基于集成的检测器中,并提出了SPI,它在特权空间构建知识框架/片段(特别是密度估计),并通过只使用测试示例可用的部分信息的“模仿”函数将它们转移到异常评分空间。 第3章基于(Shekhar, Shah, 和 Akoglu, 2021)提出了一个框架,用于在确保数据集中的不同子组的公平性的同时检测数据集中的异常。异常检测器被设计成准确地发现数据中稀有、统计上的少数样本,希望异常性反映风险性。对于一个由种族/民族/性别/年龄等定义的少数群体,样本大小根据定义是小的,这与AD算法相矛盾。然而,当少数群体的身份(例如亚洲人)不反映正类的成员身份(例如欺诈)时,AD产生不公正的结果,过多地将来自少数群体的实例标记为异常。我们讨论了AD中的偏见来源及其对少数群体的影响,以及哪些公平的概念适用于AD,这些概念可以减轻传统AD中的偏见。公平AD的一个关键挑战是缺乏评估的真实标签。我们解决了公平AD的挑战,并设计了FairOD,针对AD的公平标准,包括统计平等、治疗平等和机会均等。

第4章基于(Lee, Shekhar, Faloutsos, Hutson, 和 Iasemidis, 2021)提出了一个新颖的、通用的框架GEN2OUT,用于发现和排名通用异常,以协助领域专家进行决策,例如,引起临床医生对癫痫患者的多变量EEG记录中的奇异脑活动的注意。我们描述了在多变量时间序列数据中可能出现的通用(点和组)异常,例如在癫痫发作期间的EEG记录,因为癫痫发作是一系列的时空活动爆发。本章设计了一个算法来分配和比较孤立尖峰和尖峰组的分数,允许检测领域专家可能感兴趣的可疑事件。

(B)应用

第5章基于(Shekhar, Leder-Luis和Akoglu, 2023)开发了检测医疗过度开单或欺诈的新工具。美国联邦政府每年在医疗保健上花费超过一万亿美元,这些主要由私人第三方提供并由政府报销。在这一系统中,主要的关注点是供应商的过度开单、浪费和欺诈,因为他们面临着为了获得更高的支付而错误报告自己的索赔的激励。我们开发了一个基于集成的无监督多视图检测器,使用大量的Medicare索赔数据,包括不同的模态 - 包括患者的医疗史、提供商的编码模式和提供商的开销 - 来检测与欺诈一致的异常行为。我们结合了来自多个无监督异常检测算法的证据,这些算法使用不同类型的全局和局部分析 - 估计医院对患者支出的影响,识别医院使用与常规不同的少数ICD代码,以及比较医院在DRGs上的分布与其同行 - 使用这些我们创建了一个最终的可疑性排名。第6章基于(Shekhar, Eswaran, Hooi, Elmer, Faloutsos和Akoglu, 2023),提出了一个可以帮助预测健康结果的框架。在医疗领域,描述ICU中患者的状态可以帮助预测患者的健康结果,并允许医院重新分配他们的资源给需要的患者,从而在相同的时间内总体上实现更好的健康结果。关键的因素是这种预测的准确性,因为错误地预测不利的健康结果(例如,撤回维持生命的治疗)可能会妨碍ICU中的公平决策,并可能使医院面临非常昂贵的诉讼。我们与临床医生合作,更好地理解问题设置,并设计一个对专家做决策有用的解决方案。为此,本章引入了BENEFITTER,它通过成本/效益框架统一了早期和准确性 - 由于观察更多的数据可以实现更好的预测准确性,这是相互竞争的目标 - 并共同优化预测的准确性和早期性。尽管事件检测任务由于基础应用数据的性质而受到监督,但重点是有效性和可解释性。最终,我们不提议一个自主的算法,而是为专家提供比现在可能的更准确和更及时的信息,协助他们进行决策。

成为VIP会员查看完整内容
47

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】保证性生成模型,155页pdf
专知会员服务
30+阅读 · 2023年8月8日
【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
24+阅读 · 2023年5月20日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
专知会员服务
47+阅读 · 2021年9月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员