本文解决了检测和修复机器学习(ML)模型-模型调试中的错误的挑战。当前的机器学习模型,特别是在众包数据上训练的过参数化深度神经网络(DNN),很容易锁定虚假信号,在小群体中表现不佳,并可能因训练标签中的错误而偏离正轨。因此,在部署之前检测和修复模型错误的能力是至关重要的。可解释的机器学习方法,特别是事后解释,已经成为事实上的ML模型调试工具。目前存在大量的方法,但不清楚这些方法是否有效。在本文的第一部分中,我们介绍了一个框架,对标准监督学习流程中可能出现的模型错误进行分类。在分类的基础上,评估了几种事后模型解释方法对检测和修复框架中提出的缺陷类别是否有效。目前的方法很难检测模型对虚假信号的依赖,无法识别具有错误标签的训练输入,也没有提供直接的方法来修复模型错误。此外,实践者在实践中很难使用这些工具来调试ML模型。针对现有方法的局限性,在论文的第二部分,我们提出了新的模型调试工具。本文提出一种称为模型指导的方法,用一个审计集(一个由任务专家仔细注释的小型数据集)来更新预训练机器学习模型的参数。将更新表述为一个双层优化问题,要求更新的模型匹配专家在审计集上的预测和特征注释。模型引导可用于识别和纠正错误标记的示例。同样,该方法还可以消除模型对虚假训练信号的依赖。本文介绍的第二个调试工具使用估计器的影响函数来帮助识别训练点,其标签对ML模型的视差度量有很高的影响,如组校准。总之,本文在为机器学习模型提供更好的调试工具方面取得了进展。

成为VIP会员查看完整内容
47

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】多模态模型学习语言,138页pdf
专知会员服务
57+阅读 · 2022年12月23日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
51+阅读 · 2022年8月31日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
216+阅读 · 2020年10月8日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
Arxiv
22+阅读 · 2021年12月2日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
26+阅读 · 2018年8月19日
VIP会员
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员