人工智能的空间是巨大的,复杂的,并不断发展的。随着计算能力的进步和越来越大的数据集,人工智能算法正在被探索和开发,以用于各种各样的应用空间,人工智能算法有各种各样的潜在用户和相关风险。人工智能界正在追求可解释性,作为可信人工智能系统的许多理想特征之一。通过与人工智能界的合作,美国国家标准与技术研究院(NIST)已经确定了其他的技术特征来培养人工智能的信任。除了可解释性(explainability)和可诠释性(interpretability)之外,为支持系统的可信赖性(trustworthiness)而提出的其他人工智能系统特征包括准确性、隐私性、可靠性、稳健性、安全性、保障性(弹性)、减少有害偏见、透明度、公平性和问责制。可解释性和其他人工智能系统特征在人工智能生命周期的各个阶段相互作用。虽然所有这些都是极其重要的,但这项工作只关注可解释的人工智能系统的原则。
在本文中,我们介绍了四项原则,我们认为这些原则构成了可解释人工智能系统的基本属性。这些可解释人工智能的原则是通过NIST的公共研讨会和公众评论期与更大的人工智能社区接触后得出的。我们认识到,并非所有的人工智能系统都需要解释。然而,对于那些打算或要求可解释的人工智能系统,我们建议这些系统遵守以下四个原则:
解释性:一个系统为产出和/或过程提供或包含附带的证据或理由。
有意义:一个系统所提供的解释对目标消费者来说是可以理解的。
解释准确性:解释正确地反映产生输出的原因或准确地反映系统的过程。
知识局限性:系统仅在其设计条件下以及对其输出达到足够置信度时才能运行。
在这项工作中,我们认识到基于过程和基于结果的解释的重要性,以及解释目的和风格的重要性。例如,人工智能开发者和设计者的解释需求可能与政策制定者和终端用户的解释需求截然不同。因此,为什么要求解释以及如何提供解释可能会因人工智能用户的不同而不同。考虑到人工智能系统与信息的人类接收者的互动,这四项原则受到很大影响。给定情况的要求、手头的任务和消费者都会影响被认为适合该情况的解释的类型。这些情况可以包括,但不限于,监管机构和法律要求,人工智能系统的质量控制,以及客户关系。我们的可解释人工智能系统的四项原则旨在捕捉一系列广泛的动机、理由和观点。这些原则允许定义解释所要考虑的背景因素,并为衡量解释质量铺平道路。
我们设想,鉴于人工智能领域的复杂性,这些原则将随着时间的推移从更多的细化和社区投入中受益。我们充分认识到,除了可解释性之外,还有许多其他社会技术因素影响着人工智能的可信度。这项关于可解释人工智能系统原则的工作是NIST人工智能组合的一部分,该组合围绕可信赖的人工智能数据、标准、评估、验证和核实--所有这些都是人工智能测量所必需的。NIST是一个计量机构,因此,定义可解释人工智能系统的初始原则是未来测量和评估活动的路线图。该机构的人工智能目标和活动是根据其法定任务、白宫的指示以及美国工业界、其他联邦机构和全球人工智能研究界的需求来确定优先次序的。目前的工作只是这个更大空间中的一步,我们认为这项工作将随着时间的推移继续发展和进步,就像更大的人工智能领域。