我们是否能信任算法？不信任又能怎么办?

2020 年 3 月 27 日 AI科技评论

文 | David Spiegelhalter

译 | 这只萌萌

随着医药和刑事司法等行业引入了越来越多的算法和系统应用，算法伦理问题也引起了日益广泛的公众关注。

其中最根本的一个问题是，我们是否应该相信我们所听到的信息，以及算法和系统告诉我们的信息？

这要求人们能够辨别算法和系统的真实性，这也体现了在算法研究过程中应用统计科学进行评估和验证的可信度（即所谓的「智能透明」）的重要性。

剑桥大学丘吉尔学院院士、英国皇家学会院士、现任英国皇家统计学会主席、风险专家问题专家 David Spiegelhalter 从自身被算法误导的经历出发，基于算法在医药和刑事司法的应用案例，对算法的可靠性提出了质疑，因而利用统计科学对算法进行验证评估显得尤其重要。

文章最后，他也提到了在应用算法时，应该从哪些方面进行评估，遇到同样困扰的研究者不妨借鉴一二。

1

序言

我们去年在葡萄牙度假时，一路都使用谷歌地图进行导航。当我们行驶到古老的科英布拉大学城里狭窄的街道时，听信了谷歌地图的指引并向左转，结果前方道路突然变成了台阶，幸好我们及时刹车，原路返回。

从那以后，我就不怎么相信谷歌地图的导航了。

不只是导航算法，应用在医药和刑事司法行业中那些复杂各异的算法和系统都需要谨慎对待。例如英国用于评估累犯风险的系统 HART（危害评估风险工具），基于随机森林算法而得。这一系统在可信度和公平性上引起了巨大的争议，且不讨论其在面部识别上的争议，人权组织 Liberty 最近在报告中指出，司法预测算法的使用有损害人们权利的风险。

我们不能完全被人工智能的“神秘感”所迷惑，如今大量媒体新闻充斥着机器学习和人工智能的「神话」，我们不能偏听偏信，因为这样的新闻通常都是基于商业主张而发布。

从本质上讲，很多算法都是通过获取一些数据并使用规则或者数学公式来生成结果，辅助专业判断。刑事司法中应用算法并不是什么新鲜事件，早在数十年前，基于统计回归的简单的累犯评分系统就已经开始纳入刑事司法使用，只是并不广为大众所知。基本量刑准则可以被认为是一种一致性算法，以此为基础，法官对特定案件可以行使酌处权进行调整。

事实上，Liberty 评论司法预测算法的报告只是算法伦理问题的中的一个案例而已，目前从事算法，AI 和机器学习伦理问题研究的人甚至超过了从事技术研究的人，很多伦理问题的应对举措也随之而来，例如，针对司法的 Algo-care，FATML（ML的公平性、问责制和透明度）社区建议所有算法需要发布一项社会影响声明，在声明中详细说明：

责任：出问题时该找谁。
可解释性：向利益相关者提供普适的语言解释。
准确性：确定错误和不确定性的来源。
可审核性：允许第三方进行检查和批评。
公平：针对不同的受众特征。

美国在刑事司法中应用 COMPAS 系统进行累犯预测，辅助罪犯保释决策。COMPAS 系统输入 137 项特征，评分为 1 到 10，将累犯风险分为低/中/高。

但是该系统是专有程序，完全是个「黑匣子」，COMPAS 系统曾被指控存在种族偏见，受到了强烈质疑，有人上诉反对 COMPAS 的评分结果，但以失败告终。尽管如此，COMPAS 在大多数 FATM 标准上似乎都表现不佳。

因此，回归到一个简单的问题——我们可以信任算法吗？

2

主动信任和值得信赖

在这个大量信息鱼龙混杂，真假难辨的年代，各种网络声音常常争辩激烈，我们都希望得到信任。

但正如哲学家Onora O’Neill 所言，我们不应该期望大众信任自己，而应该主动证明自身值得信赖，这需要自身的诚实，能力和可靠性。奥尼尔这一提议简单有力，英国国家统计局在修订版的职业准则中，也将诚信作为第一要素。

要成为大众所信赖的算法，需要在声明中表达清楚以下两点信息。首先，开发人员说清楚算法可以做什么，如何进行验证和评估。其次，算法在遇到特定案例时如何处理。

算法的验证评估是一个非常复杂的话题，统计学在其中可以发挥很大作用，数十年来一直应用于数据验证和评估。下面让我们更详细地了解这两点：

1）算法和系统结果的可信度

正如路透社最近的一份报告所言，如今在人工智能这一话题上，充斥着太多商业驱动的炒作言论。Eric Topol 去年在医学 AI 发表权威评论，表示目前 AI 的炒作言论已经远远超出了科学言论，尤其是在算法验证和实施准备阶段。

按照FATML建议，算法和系统可以通过发表社会影响声明来传达其可信性。但还有一点似乎未被提及，那就是算法和系统所带来的影响。理论上来说，算法的应用应该是有益的，但这一点无法得到充分保证，所以，FATML提议在声明中增加这一点：

2）影响：实际使用中有什么益处和危害？

20 世纪 60 年代那场「反应停」药物灾难事件中，因药物造成胎儿四肢畸形，夺去了数以万计婴儿的生命。发生了这一史无前例的药害丑闻以后，所有新药的测试都需要经过极为严苛的评估模型。

统计学应用于结构化评估中是极为常见的，我和 Stead 等人通过长期研究，类比药物测试评估模型，总结出了算法和系统的验证评估模型，表 1 展示了药物测试的四阶段评估模型，以及算法和系统的验证评估模型。

表 1. 公认的药物测试四阶段评估模型，以及建议的算法评估模

	医药	算法
阶段1	安全性：人体安全性初步测试	数字测试: 测试集的性能测试
阶段 2	概念验证：对选定对象的功效和最佳使用	实验室测试: 算法对比人类的测试，用户测试
阶段 3	随机对照试验：对比临床治疗方法	现场测试: 算法影响的对照试验
阶段 4	新药上市后：继续收集药物的副作用	日常使用：算法问题的长期监控

从已发表的文献中发现，医疗和刑事司法行业的算法，其验证评估都聚焦于阶段 1，即数据集准确性。但数据集准确性仅仅是评估过程的开始。

目前迈入阶段 2 的算法正在由少变多，阶段 2 常应用图灵测试，即将算法性能用来与人类「专家」进行比较。将人类「专家」和算法得出的判断结果进行混合，由独立专家来评估判断结果的质量。在图灵测试中，判断结果是出自人类「专家」还是出自算法是不作考虑的。

例如，医疗 AI 公司 Babylon曾进行了一项阶段 2 的验证评估，将他们的诊断系统与医生诊断结果进行对比，这一测试随后在《柳叶刀》杂志上被强烈批评。康奈尔大学人工智能专业的Kleinberg 教授等人类比了累犯预测算法的评估流程和药物测试的四阶段评估模型，对人类决策与算法决策阶段 2 比较进行了建模。

Topol 还指出，几乎没有任何前瞻性的验证，能证明机器可以帮助临床医生有效地诊断或预测临床结果。这也就意味着，很少有算法的验证评估能迈入阶段 3，即验证系统在实践中是否确实利大于弊。即便是简单的风险评分系统也几乎没有在随机试验中进行阶段 3 评估。

当然并不是完全没有算法评估应用了阶段 3，在心血管疾病预防领域，曾有 Cochrane 系统评价得出结论：「评分预测系统会稍许降低 CVD 风险因子水平，并在没有危害的情况下为高危人群开具预防性用药处方。」

算法可能会产生一些意料不到的影响。早在 1980 年代，我就参与了「计算机辅助诊断」的研究，当时在诊所的角落里放置了一台笨拙的大型个人计算机。

在一项随机试验中，我们发现，即使是效果较差的算法也有助于改善诊断和治疗急性腹痛的临床表现，这并不是因为医生听取了计算机的结果，而是因为「计算机辅助诊断」这种形式鼓励了医生更为系统化地收集患者病史并做出初步诊断。

然而，通过类比药物测试评估模型得出的算法评估模型存在其局限性。我们知道处方药通常只对个人起作用，除了过度使用抗抑郁药和鸦片类药物外，处方药几乎不会对整个社会产生影响。

而算法不一样，其广泛应用是可能会对全社会造成影响的，因此药物测试评估模型在阶段 3 采用基于个体的随机对照试验这种传统做法，对于算法评估而言是不完全适用的，需要补充人群影响的研究作为辅助验证。

英国医学研究理事会应对复杂医学干预措施的评估模型与此类似，这一评估模型最初的版本与前文提到的药物测试评估模型非常相似，但其随后的修订版转为了更具迭代化的模型，对实验方法的重视程度有所降低，将影响验证的评估扩展到其他学科，而不再强调随机对照试验的应用。

出于监管目的，临床算法被欧盟和食品药品监督管理局（FDA）视为医疗设备，因此是不受表 1 中的药物测试评估模型所约束的。

临床算法不一定要通过阶段 3 的随机试验，其更为注重的是技术，或者说是代码本身的可靠性。但前提是，算法必须在实验室中证明是具有合理性和准确性的，并能在实践中有所益处，能证明这几点有利于提高算法在社会影响声明中的可信度。

3

向使用对象公布算法结果的可信性

当罪犯必须接受累犯风险预测系统的预测结果时，或者患者需要接受医疗辅助系统的诊断结果时，他们或他们的代表应该有权利获得以下问题的明确答案：

当前的案例是否在算法的能力范围内？
得出最终结果的推理过程是什么？
如果算法的输入被否定，结果会如何 (反事实思维)？
是否存在重要的信息能让算法「打破平衡」？
算法得出的结果是否存在不确定性？

当前有许多创新尝试能让复杂的算法更具可解释性，减少「黑匣子」情况的出现。例如，由 Moorfields 眼科医院和谷歌联合开发的 Google DeepMind 眼部诊断系统，基于一种深度学习算法并精心设计，可以分层可视化地解释从原始图像到最终诊断结果之间的中间步骤。

虽然深度学习算法适合于图像数据的自动分析，但是当输入数据较少时，其有可能首先构建一个更简单，更易于解释的模型。

统计科学主要集中在线性回归模型上，对特征进行加权，构建评分系统。例如，Caruana 等人使用广义相加模型 (Generalized Additive Model) 得出肺炎风险评分系统。

人们常说，算法的可解释性与性能之间是无法兼得的，必须进行权衡。正是因此，累犯预测系统 COMPAS 受到了质疑。一项在线测试表明，未经过培训的公众可以达到和 COMPAS 系统一样的准确度 (65% 的准确度)，甚至可以通过简单的基于规则的分类器和只需要年龄和犯罪前科两个预测变量的回归模型来匹配 COMPAS 的预测性能。进一步来说，不确定性评估是统计科学的核心组成部分。