https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-65.html 经典的机器学习和统计学都是建立在这样一个范式之上的,即我们想要了解一个固定数量的关于一个群体的信息,如根据特征预测结果的最佳预测因子或者治疗的平均效果。然而,在现代实践中,预测和推断往往导致其他预测和推断,使得感兴趣的数量随着时间的推移而变化,并在反馈回路中偏离。反馈对传统方法提出了挑战,需要新的解决方案。本论文介绍了在反馈回路存在的情况下预测和推断的新原则。 第一部分主要关注表现性预测。表现性预测形式化了这样一个现象,即预测模型通过用于作出重大的下游决策,往往影响了它们首先试图预测的结果。例如,导航应用上的行程时间预测会影响交通模式,从而影响实际行程时间;股票价格预测会影响交易活动,进而影响价格。我们研究了诸如重新训练等常见的启发式方法,以及处理表现性反馈的更精细的优化策略。在第一部分的最后,我们确定了一些重要的情景,即预测行为引发了反馈回路,而这些回路并没有被表现性框架解释,我们发展了理论来描述和研究这种反馈。 第二部分讨论了在反馈存在的情况下进行有效统计推断的原则,即有效的p值和置信区间。我们考虑了两种类型的反馈:第一种是由于数据窥探引起的,即在查看数据之后才选择报告哪些结果的做法;第二种是当机器学习系统被用于提供廉价预测以增加或替代未来科学分析中的高质量数据时产生的。在这两种情况下,忽略反馈并直接应用经典统计方法会导致错误率上升和假阳性发现;我们提供了一种替代方法,可以在反馈存在的情况下保证有效推断。