机器学习(ML)正在经历一场范式的转变——机器学习模型越来越多地被作为一种服务来提供,以自动化各种下游决策,而不是由机器学习专家对特定任务进行端到端的训练和部署。例如,大型科技公司提供的图片或文本分类API,被广泛的第三方应用开发者使用,以及通过网站向数百万用户提供各种预测(如天气、COVID、流量等),以帮助他们进行规划。尽管这种新的范式通过使ML更广泛地可访问而使其民主化,但它引起了对可信性(用户无法看到他们是如何被训练的以及他们的失败模式)和性能(预测模型不再为特定的下游任务量身定做)的担忧。本文通过以下方法来解决这些问题:
贡献1。提出了一种新的方法,通过精确的不确定性量化,向下游决策者传递信心,后者将对(高风险)决策进行预测。精确的不确定性量化可以通过预测相关结果的真实概率(例如给定症状的病人患病的真实概率)来实现。虽然在大多数情况下,准确地输出这些概率是不可能的,但对于大型决策任务,学习与真实概率难以区分的概率却是惊人的可能。不可区分性保证了决策者的可靠性,因为在他们的决策任务中,他们不应该能够区分预测概率和真实概率之间的区别。作为一个应用程序,我开发了一些预测模型,如医疗诊断、航班延误预测和贫困预测等领域。我展示了通过使用我的方法,决策者可以自信地做出导致良好结果的决策。
贡献2。发展一种新的信息理论,以严格推理和优化ML预测在广泛的决策任务中的“有用性”。香农信息理论在机器学习中有着广泛的应用,但在处理复杂的学习和决策任务时存在一些局限性。例如,考虑从对手拦截的安全加密消息数据集。根据信息论,这些加密信息与对手的计划具有高度的互信息,而任何计算有界的决策者都不能利用这些信息。为了解决这些局限性,我提出了一个新的框架,称为“效用信息理论”,它概括了香农熵、信息和散度,以解释知识或建模能力有限的决策者将如何使用信息。作为一个应用,我将新的信息应用于贝叶斯优化问题,并显示了比使用香农信息的当前方法在样本效率方面的数量级改进。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“D235” 就可以获取《【斯坦福博士论文】不确定性和信息为机器学习提供决策支持,235页pdf》专知下载链接