数学模型是用来研究、解释和预测感兴趣系统行为的强大而简化的抽象。这篇论文关注的是它们后期作为预测模型的应用。这些模型的预测通常内在地不确定,就像COVID-19大流行期间预测和经历的天气预报模型一样。例如缺失信息,如不完整的大气数据,以及模型本质上是近似的(“所有模型都是错误的”)意味着预测最多是近似正确的。概率模型通过报告不是单一点预测(“下雨”/“不下雨”),而是所有可能结果的概率分布(“80%的可能性下雨”)来缓解这个问题,代表了预测的不确定性,意图能够标记预测为更或者少可信的。然而,仅仅报告一个概率预测并不保证不确定性估计是可靠的。校准模型确保预测所表达的不确定性与预测任务一致,因此预测既不低估也不过分自信。特别是在安全关键的应用中,如医疗诊断和自动驾驶,校准在区分不确定和可信预测中至关重要。数学模型不一定具有这个属性,尤其是复杂的机器学习模型很容易报告过分自信的预测。这篇论文的主要贡献是分析模型校准的新统计方法,包括校准度量、它们的估计器和统计假设检验,基于其中的文章在第二部分提出的,读者将被介绍到概率预测模型,分析校准的基础,以及构成所提出校准措施基础的正定核心。这些措施对二元分类模型特别有用,有任意数量的类,并且特别应用于分类模型,回归问题的模型和源于贝叶斯推断的模型。这种通用性是由于现如今需要对越来越复杂模型的详细校准分析的需求。为了满足详细校准分析的需要,一个用Julia编程语言写的校准分析工具已经被公开提供,并且配有Python和R编程语言的接口。