为 AI 指引正确方向

2018 年 11 月 27 日 谷歌开发者

文 / Rajen Sheth, Director of Product Management, Cloud AI

在过去的一年里，我曾与数百位客户面谈，讨论 AI 如何改变了他们对事物可能性的认识。我们讨论了如何通过算法应用实现智能分诊，从而减少医护人员的工作量；如何实现准确的语言翻译，从而将记者与全球各地的观众联系在一起；如何实现自动响应常见请求，从而减少客户服务等待时间。我们能够应用 AI 帮助客户解决如此之多的业务问题，这着实令我感到惊讶，但这些客户也在一定程度上表达了对 AI 的犹疑和担心。

在这项技术的帮助下，我们实现了很多超乎想象的事情，但这同时也有可能带来意料之外的后果。我们有许多客户都在问：我们如何才能从 AI 中获益同时又避免其带来的挑战？

NCSA Mosaic 网络浏览器，发布于 1993 年

为便于从讨论中得出正确的观点，我经常会从上面这张图片说起。这是在 1993 年面世的 Mosaic 网络浏览器，在我看来，2018 年 AI 技术的现况就好比当年的 Mosaic 网络浏览器。与上世纪 90 年代中期的网络技术类似，现时的 AI 正经历着从学术领域到主流技术的快速转变。互联网革命让我们受益良多，但同时也给我们带来了诸多风险，我们有责任考虑摆在我们面前的各种可能性。毕竟，像电子邮件和短信等技术让我们很轻松就能保持联系，要看到这一点并不难，但要想象这类技术在恶意软件和网络霸凌等现象蔓延中所起的作用却不那么容易。

相较网络技术发展早期时产生的问题，未来十年我们可能会遇到更加复杂棘手的挑战，但我们的客户如此热切地主动迎接挑战，让我备受鼓舞。事实上，同样的问题往往会反复出现：

不公平的偏见：我们如何能够确定我们的机器学习模型对每位用户一视同仁？
可解释性：我们如何能够让 AI 更加透明，从而更好地理解它的建议？
改变员工：我们如何能够负责任地利用自动化技术的力量，同时确保现在的员工为未来做好准备？
正确利用：最后，我们如何能够确定我们正在将 AI 用于正途？

不公平的偏见

我们很容易认为算法是客观的，而且绝对可靠，但事实是，机器学习模型的可靠性有赖于训练模型时使用的数据。此外，由于负责寻找、组织和标记这些数据的都是人类，因此即便是最轻微的不规范行为，也很容易在结果中造成重大差异。更糟糕的是，算法的执行速度远非人类所能及，再加上是在全球范围内执行，因此不公平的偏见不仅被重复，而且还有所扩大。

虽然不公平的偏见可能是蓄意偏见的产物，但我们的盲点却发挥着更普遍的作用。例如，我们往往会被能够证实自己信念的人和观点所吸引，而对置疑我们信念的人和观点，则容易回避。这种现象被称为证实性偏见，它甚至可以扭曲最有善意的开发者的看法。

此外，由于我们身边已经发现有不公平的偏见，因此即便是如实收集的数据，也可以反映这种偏见。例如，大量的历史文本经常用于训练涉及自然语言处理或翻译的机器学习模型，如不改正，可能会使这种有害的成见持续下去。Bolukbasi 等人的开创性研究以令人震惊的清晰度量化了这一现象，证明统计语言模型能够非常轻松地 “学习” 关于性别的过时假设，例如 “医生” 是 “男性”，“护士” 是 “女性”。与此相似的嵌入性偏见问题在种族方面也有体现。

我们正在多个领域处理这些问题，其中以感知领域最为重要。为了促进人们更广泛地理解公平对于机器学习等技术的必要性，我们创建了教育资源，例如 ml-fairness.com，并在 ML 教育速成课程中新近推出公平性模块。

我们还看到一种鼓舞人心的趋势，即借助文档记录来更好地理解机器学习解决方案中的内容。今年早些时候，研究人员提出了一种记录数据集的正式方法，这种方法特别适用于数据集包含以人为中心的信息或人口统计敏感信息的情况。以此观点为基础，Google 的研究人员提出了 “模型卡片”，这是一种用于描述机器学习模型的目标、假设、性能指标、甚至伦理道德考量的标准化格式。一目了然，模型卡片旨在帮助开发者（无论是否有 ML 专业知识）在掌握信息的情况下决定负责任地使用给定组件。

当然，我们一直致力于为开发者提供值得信赖的工具，在挑战偏见方面也是一样。首先从嵌入式文档开始，例如包容性 ML 指南，我们将该指南集成在 AutoML 中，并扩展到类似 TensorFlow Model Analysis (TFMA) 和 What-If Tool 等工具，该指南为开发者提供所需的分析数据，使其确信他们的模型会公平对待所有用户。TFMA 可以轻松将模型在用户群体的不同环境、特征和子集下的性能表现可视化，而 What-If 支持开发者轻松运行反设事实，阐明关键特征（例如给定用户的人口属性）逆转时可能会发生的情况。这两个工具都可以提供沉浸式互动方法，用于详细探索机器学习行为，帮助您识别公平性和代表性方面的失误。

最后，我们计划通过数据科学平台 Kaggle 充分发挥社区的力量。我们最近推出的包容性图像挑战赛主要解决图像训练集中地理多样性偏差的问题，这一问题导致分类器经常难以描述来自代表人数不足地区的人。参赛者面临的挑战是构建能够在无需整合新数据的前提下更好地在不同地理环境间进行泛化的模型，从而打造出更加包容、可靠的工具，以便更好地为全球用户群提供服务。在此项任务中取得的进展将应用于其他领域，我们对此很乐观，同时也很高兴在 2018 年的神经信息处理系统大会上展示这些成果。

对于目前采取的这些做法，我们深感自豪，我相信这些知识和我们正在开发的工具具有深远的意义，必将促进 AI 技术的公平性。但没有一家公司能够独自解决如此复杂的问题。这场对抗不公平偏见的斗争将是一次集体行动，由许多利益相关者的投入共同推动，我们会倾听多方意见。世界不断变化，我们也将继续学习。

可解释性

AI 如何能够真正赢得我们的信任？这属于一个更基本的问题，但其紧迫性丝毫不亚于应对不公平偏见的挑战。随着机器学习在决策领域发挥的作用越来越大（这曾经是人类的专属领域），答案将越来越多地依靠一个关键因素：可说明性。

许多深度学习算法自诞生起就一直被人们视作 “神秘黑匣” 般的存在，这是因为就连它们的创造者也难以准确表达输入和输出之间究竟发生了什么。如果我们继续把 AI 当作 “神秘黑匣” 看待，那我们就不能指望得到人们的信任，因为信任源自了解。对于传统软件，我们可以通过逐行检查源代码来揭示其中的逻辑，但神经网络是一个通过暴露在数千乃至数百万个训练示例中而形成的密集连接网络，所以结果只能是折衷一下，取灵活性而损直观解释性。

随着最佳实践的建立，成套工具的增多，再加上大家都在努力从开发周期伊始就获得可解释的结果，我们这方面的工作正在不断取得进展。事实上，在今年早些时候发布构建负责任的 AI 系统的原则之时，我们就已将可解释性列为四大基础支柱之一。

目前，我们看到业界已经在现实中考虑可解释性这一问题。例如，在图像分类领域，Google AI 最近的研究演示了一种表现人性化概念的的方法，例如条纹状皮毛或卷发，然后在给定图像中量化这些概念的普遍性。由此产生的分类器能够根据对人类用户最有意义的特点来清楚表达其推理过程。例如，它可能将图像归类为 “斑马”，部分原因在于 “条纹” 特征较明显，而 “圆点花纹” 特征相对不够明显。实际上，研究人员正在试验将这种方法应用于糖尿病视网膜病变的诊断，它可以使输出更加透明，当专家不同意模型的推理时，甚至允许对模型进行调整。

改变员工

无可否认，我们与工作的关系正在发生变化，我们有许多客户都想知道应该如何平衡自动化技术的潜力与员工的价值。

不过，我认为自动化技术的未来并非一场零和游戏。PWC 最近的一份报告显示，67% 的高管认为通过人工智能和人类智能相结合，AI 将助推人类和机器协同工作，发挥更强大的作用。

另外，我们必须记往一点，工作很少会是单一的。大多数工作都是由无数不同任务组成，从高度创新到重复性任务，每一项任务都会在特定程度上受到自动化的影响。例如，在放射医学中，算法发挥着辅助作用，通过自动评估简单常见的症状，让人类专家可以集中精力应对更具挑战性的任务，同时更快、更持续地工作。

然而，某些类别的工作面对的变化要比其他工作更加紧迫，并且要做出更多努力才能缓和这种转变。为此，Google.org 拿出了 5,000 万美元的资金，用于支持非盈利组织从三大方面为未来的工作做好准备：

提供终身培训和教育，让工人能够满足工作要求
根据技能和经验，将潜在员工与理想的工作机会联系起来
为从事低收入工作的工人提供支持

当然，这只是第一步，我们期待在未来几年中为越来越多的类似举措提供支持。

正确利用

最后，还有一个最重要的问题：“如何能够确定我正在运用 AI 给人们的生活带来积极影响？”

这是一个很难回答的问题，由于我们倾向于关注 AI 在极端情况下的行为，因此回答这一问题变得更加困难。例如，采用伦敦动物学会的做法，使用 AutoML 以低成本方式监控濒危物种，这无疑是一个好方法，几乎没人会否认这点。我们也亲眼目睹 Google 的开源机器学习框架 TensorFlow 如何帮助 Rainforest Connection 对抗非法森林采伐，帮助农民识别患病植株，以及预测发生森林大火的可能性。此外，我们的 AI 造福社会 (AI for Social Good) 计划最近宣布拨款 2,500 万美元，用于资助以解决人道主义和环境挑战为目标的 AI 研究。我们的变革应对数据解决方案 (Data Solutions for Change) 计划将继续帮助非盈利组织和 NGO（非政府组织）利用目标导向分析来应对失业问题，检测阿兹海默症，创建更多可持续的食品系统以及优化社区规划。

但是，这里有一个巨大的 “灰色" 地带，特别是像 AI 武器这种有争议的领域，这个 “灰色” 地带就是我们在 AI 原则中所述决定不去追寻的技术应用领域。在具有争议的用例可能性方面，我们的客户认为自己身处各种不同境地，希望我们能够帮助他们彻底想清楚 AI 对其业务的意义。

我们正在与客户和产品团队合作，共同解决这些领域的问题。关于这个问题，为了能够掌握资讯并带来更多外部视角，我们寻求了技术伦理学家 Shannon Vallor 的帮助（她为 Cloud AI 提供咨询），请她协助我们理解这个不断发展的 “灰色” 地带，以及我们的工作该如何融入其中。从内部的 AI 伦理最佳实践教育计划到 AI 原则落实方面的咨询建议，她从专家视角为 Cloud AI 介绍了如何通过伦理设计、分析和决策来引领这项技术的发展。例如，伦理设计原则可以用于帮助我们构建更加公平的机器学习模型。审慎的伦理分析能够帮助我们了解视觉技术的哪些潜在用途是不恰当、有害或具侵入性的。伦理决策实践可以帮助我们更好地推理具有挑战性的两难困境和复杂的价值权衡，例如是否在 AI 应用中将透明度或隐私放在优先位置，更多的透明度意味着更少的隐私，反之亦然。

共同打造 AI 的未来

对于前方的所有不确定因素，有一件事非常清楚：构建 AI 的未来，所需要的远不只是技术。这需要我们共同努力，同样有赖于工具、信息，以及对世界产生积极影响的共同愿望。

正因此，这并非一份宣言，而是一场对话。虽然我们渴望分享多年来在技术最前沿学到的知识，但没有人比您更了解您客户的需求，而且这两种视角都将在构建公平、负责任和值得信赖的 AI 中发挥至关重要的作用。毕竟，每个行业都在面临自己的 AI 革命，因此，就引领 AI 的发展而言，每个行业都不可或缺。我们期待与您展开持续对话，一起聊聊如何让承诺变为现实。

更多 AI 相关阅读：