“谷歌大脑”年度官方总结：9个基础方向研究、6大具体领域成果定义谷歌 AI 进展

2018 年 1 月 14 日 DeepTech深科技 王维莹

年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情查看“阅读原文”

作为谷歌 AI 帝国的重要部分，谷歌大脑团队一直致力于通过研究和系统工程来推动人工智能领域的发展。去年他们分享了 2016 年的工作总结。在接下来的一年中，他们在制造智能机器的长期研究中不断取得进步，并与来自 Google 和 Alphabet 的其他团队合作，利用研究成果来为人类造福。

近日，该团队按照惯例，发表了 2017 年的年度总结。这份总结由谷歌高级研究员 Jeff Dean 代表整个团队执笔。总结分为上下两篇。在上篇中主要介绍了 2017 年团队的基础研究工作，开源一些软件和数据集以及用于机器学习的硬件更新。下篇将介绍团队在特定领域的研究，比如医疗，机器人，和一些基础科学。以及更多的关于团队富有的创造力，公平和包容性的工作，和跟多关于团队自身的内容。

核心研究

谷歌大脑团队的关注的重点是那些可以在机器学习领域提高理解力和解决新问题的能力的研究。以下是一些研究主题。

1. 自动化机器学习

如我们所知，机器学习的算法是由机器学习专家精细设计的，但是需要解决的新问题层出不穷。自动化机器学习的目标就是让计算机自动去解决新的机器学习问题，而不需要人类机器学习专家在每个新问题上进行干预。如果我们希望得到真正的智能系统，这就是必须的基本能力。

谷歌大脑团队设计出使用强化学习和演化算法的新的神经网络设计方法。这项工作已经被扩展到最新的 ImageNet 分类和检测，并展示了如何自动学习新的优化算法和有效的激活函数。团队积极与谷歌的 Cloud AI 团队合作，让谷歌用户可以享受这项成果，同时将这项研究在多个方向上推进。

图丨神经结构搜索发现的卷积结构

图丨自动机器学习的网络进行物体探测

2. 语音理解与生成

团队发展新的技术来改善计算机理解和生成人类语音的能力，并与谷歌的语音团队合作为一个多端到端的语音识别系统研究出多种优化方法。这使得 Google 的产品——语音识别系统的相对单词错误率降低了 16％。这项工作将许多独立的研究线索汇集到一起。

图丨Listen-Attend-Spell 端对端语音识别系统的组成

团队还与 Google 的 Machine Perception 团队合作开发了一种新的文本到语音生成方法，Tacotron 2。它极大地提高了生成的语音的质量。这个模型达到了 4.53 的平均意见得分（MOS），相比之下，有声读物中的专业记录语音的 MOS 为 4.58，之前的计算机语音生成系统最好成绩也仅仅为 4.34。

图丨Tacotron 2 结构图

3. 新的机器学习算法和途径

团队一直致力于开发新奇的机器学习算法和方法，包括在 capsules 上的研究（明确地寻找激活特征协议，作为在执行视觉任务时评估多种不同噪音假设的方式），sparsely-gated mixtures of experts（使非常大的模型仍能有很高的计算效率），超网络（使用一个模型的权重为另一个模型生成权重），新型多模式模型（在同一模型中跨音频，视觉和文本输入执行多任务学习），基于注意的机制（替代卷积和循环模型），符号和非符号化的学习优化方法，一种通过离散变量的反向传播技术，以及一些对强化学习算法改进。

4. 计算机系统领域的机器学习

谷歌大脑团队对于用机器学习的方法在计算机系统中取代传统的启发式应用非常感兴趣。他们已经展示了如何使用强化学习来进行放置决策，将计算图映射到一组计算设备上，而且比人类专家做的更好。团队还与 Google Research 合作，展示了神经网络建立的索引比传统数据结构（如 B 树，散列表和布隆过滤器）更快，更小。如 NIPS 关于机器学习系统和系统的机器学习讨论会上所说的，谷歌大脑团队相信，他们正在触及在核心计算机系统中使用机器学习这一领域。

图丨用习得的模型作为索引结构

5. 隐私与安全

机器学习及其与安全和隐私的交互一直是团队关注的焦点。在一篇获得 ICLR 2017“最佳论文奖”的的论文中，团队展示了机器学习技术可以提供不同方式的隐私保证。团队还继续调查了抗性样例的性质，包括在现实世界中展现的对抗性样例，以及在训练过程中如何充分利用他们来使模型更适应这些对抗性样例。

6. 理解机器学习系统

虽然人们已经见识到了深度学习的强大能力，但更重要的是理解它为什么起作用，什么时候不起作用。在另一篇获得 ICLR 2017“最佳论文奖”的论文中，团队向大家阐明，目前的机器学习理论框架无法解释深度学习方法的一些杰出的结果。团队展示了，通过最优化方法找到的最小值的“平坦度”，并不像最初想象的那样与良好的泛化紧密相关。为了更好地理解深层架构下的训练过程是如何进行的，谷歌大脑团队发表了一系列分析随机矩阵的论文，因为它们是大多数训练方法的出发点。

了解深度学习的另一个重要途径就是更好地衡量他们的效果。在最近的一项对众多生成对抗网络的比较的研究中，团队展示了良好的实验设计和统计严谨性的重要性，他们发现许多流行的对生成模型的增强方法实际上并没有提高它的性能。我们希望这项研究能够为其他研究人员提供一个可靠的实验研究的范例。

团队正在开发能够更好地解释机器学习系统的方法。在三月份，团队与 OpenAI，DeepMind，YC Research 等合作，宣布推出 Distill，这是一本致力于支持人类对机器学习的进行理解的在线开放式科学杂志。它因对机器学习概念的清晰阐释和在出色的交互式可视化工具而广受赞誉。在第一年，Distill 上就发表了许多启发性的文章，旨在了解各种机器学习技术的内部工作机理，我们期待 2018 年迎来更多可能。

图丨特征可视化

7. 机器学习研究的开源数据集

数据集对于机器学习研究的重要性不言而喻。像 MNIST, CIFAR-10, ImageNet, SVHN, and WMT 这样的开源数据集一直推动着机器学习飞速发展。谷歌大脑团队和 Google Research 在过去一年一直积极地为开放式机器学习研究公开有趣的新数据集，提供更多的大型标记数据集，包括：

YouTube-8M: >用 4716 个不同类别标注的 7 百万 YouTube 视频
YouTube-Bounding Boxes: 来自 21 万 Youtube 视频的五百万个边际框标注
Speech Commands Dataset: 成千上万人所说的简短的命令字
AudioSet: 用 527 个声音事件标注的 2 百万个 10 秒的 YouTube 剪辑
Atomic Visual Actions (AVA): 57000 个视频剪辑片段中 21 万个动作标注
Open Images: 9M 的通过 6000 个类别对创意共享许可图像进行标注
Open Images with Bounding Boxes: 1.2M 的共计 600 个分类的边界框标注

图丨YouTube-Bounding Boxes dataset 的例子：边界框标注的物体

8.TensorFlow 和开源软件

纵观团队的历史，许多构建的工具已经在 Google 的许多产品应用，进行机器学习研究并部署机器学习系统。2015 年 11 月，第二代机器学习框架 TensorFlow 开源，团队希望整个机器学习社区能够从中受益。在 2017 年 2 月，TensorFlow 1.0 发布。在 11 月，1.4 版本发布，这其中包括重要的添加内容：用于交互式命令式编程的 Eager execution，TensorFlow 程序的优化编译器 XLA，以及适用于移动设备和嵌入式设备的轻量级解决方案 TensorFlow Lite。现在，预编译的 TensorFlow 二进制文件现在已经在 180 多个国家被下载了超过一千万次，GitHub 上的源代码现在已经有超过 1200 个贡献者。

图丨TensorFlow 用户分布图

今年 2 月，首届 TensorFlow 开发者峰会成功举办，吸引了 450 多人亲临现场参加活动，6500 人观看直播，在全球 35 多个国家和地区举办了超过 85 场的本地观看活动。所有会谈都被记录下来，主题包括新特性，使用 TensorFlow 的技巧，或者对低层次 TensorFlow 抽象的探讨。团队预计于 2018 年 3 月 30 日在湾区举办另一个 TensorFlow 开发者峰会。

在十一月，TensorFlow 庆祝其开放源代码项目两周年。TensorFlow 是 GitHub 上排名第一的机器学习平台，也是 GitHub 上的五大软件库之一，已经被许多大大小小的公司和机构所使用，包括 GitHub 上超过 24,500 个与 TensorFlow 相关的仓库。现在，许多研究论文都与开放源码的 TensorFlow 实现和研究结果一起出版，使社区能够更容易地理解所使用的确切方法，并重现或扩展工作。

除了 TensorFlow 之外，团队还在浏览器中发布了 deeplearn.js，一个开源的硬件加速深度学习的 API 实现（无需下载或安装任何东西）。deeplearn.js 主页有许多很好的例子，其中包括 Teachable Machine, 可以使用网络摄像头训练的计算机视觉模型，以及 Performance RNN，一个基于实时神经网络的钢琴作曲和演奏效果的演示。团队将在 2018 年继续开展工作，以便将 TensorFlow 模型直接部署到 deeplearn.js 环境中。

9.TPU

大约五年前，团队就已经意识到，深度学习会大大改变人类对硬件的需求。深度学习计算的计算量虽然非常大，但是它们有两个特殊的性质：它们主要由密集的线性代数运算（矩阵倍数，向量运算等）组成，它们对精度降低非常宽容。团队利用这两个属性来构建能够非常有效地运行神经网络计算的专用硬件。他们为 Google's Platforms 团队提供设计蓝图，由此设计并生产了第一代 Tensor Processing Unit（TPU）：一个单芯片 ASIC，旨在加速对深度学习模型的推理（不同于训练，推理是使用已经训练好的神经网络）。

这第一代 TPU 已经在数据中心部署了三年，被用于增强每一个深度模型的威力：在每个 Google 搜索查询，Google 翻译，Google 相册中对图片的理解，AlphaGo 与李世乭和柯洁的对抗，以及其他许多研究和产品上。六月份，团队在 ISCA 2017 上发表了一篇论文，表明第一代 TPU 比现代 GPU 或 CPU 同类产品快 15 到 30 倍，性能功耗比则提高了 30 到 80 倍。

图丨Cloud TPU Pods

图丨在 ImageNet 上的 ResNet-50 实验当 TPU 设备数增加时，速度也完美的随之提升

推理固然重要，但加速训练过程是一个更重要也更难的问题。如果研究人员可以更快地尝试一个新的想法，那他就可以做出更多的突破。在 5 月份的 Google I/O 大会上，团队发布了第二代 TPU，它是一个旨在加速训练过程和推理的整体系统（包括订制 ASIC 芯片，电路板和连接方式）。团队展示了单个设备的配置，以及被称为 TPU Pod 的多机架深度学习超级计算机配置。这些第二代设备将作为云端 TPU 在 Google 云端平台上对外提供。

同时，团队还公布了 TensorFlow 研究云计划（TFRC），该计划旨在为那些愿与与世界分享研究成果的顶级机器学习研究人员提供免费访问 1000 个云端 TPU 的集群的方法。在十二月份，团队展示了另一项成果，表明可以在 22 分钟内在 TPU Pod 上训练一个高精确度的 ResNet-50 ImageNet 模型，而在一个典型的工作站上，这需要几天甚至更长时间。团队认为以这种方式缩短研究周转时间将大大提高 Google 的机器学习团队以及所有使用云端 TPU 的组织的工作效率。

技术应用

10. 医疗

将机器学习技术应用于医疗保健有巨大的潜力。谷歌大脑团队在多个方面针对不同问题展开工作，包括帮助病理学家检测癌症，理解医疗对话以帮助医生和患者，利用机器学习解决基因组学中的各种问题，包括开放一个基于深度学习的高准确度的变种呼叫系统 DeepVariant。

团队曾于 2016 年 12 月在美国医学协会杂志（JAMA）上发表的研究论文，并继续研究糖尿病性视网膜病变（DR）和黄斑水肿的早期发现。2017 年，这项研究进入实际临床效果研究阶段。团队与 Verily（Alphabet 的生命科学公司）合作，通过严格流程的来指导这项工作，将其结合到尼康的 Optos 系列眼科相机中。

此外，团队正致力于在眼科医生缺口达到 127，000 的印度部署该系统。在那里，超过半数的患者都因无法得到及时的医治而失明。作为尝试的一部分，团队已经在 Aravind 眼科医院推出了该系统，帮助医疗人员更好地诊断糖尿病性眼疾病。团队还与合作伙伴合作，了解人为因素对糖尿病性眼部疾病护理的影响，从患者和医疗保健提供者的人种学进行研究，到调查眼部护理临床医生如何与 AI 系统交互。

图丨（上）第一位应用的患者（下）训练好的引导者，正观察着系统的输出结果

团队还联合了包括斯坦福大学，UCSF 和芝加哥大学在内的领先医疗机构和医疗中心的研究人员，展示使用机器学习根据医疗记录去预测医疗结果的有效性。这项研究预计于 2018 年取得突破性进展。

11. 机器人技术

谷歌大脑团队在机器人学领域的长期目标是设计学习算法，使机器人能够在杂乱的现实环境中操作，并通过学习快速获得新的技能和能力，而不是像如今的机器人一样，需要精心控制的条件和手动编制的特殊任务。团队研究的一个重点是开发新的技术，让物理机器人能够使用他们自己的经验和其他机器人的来构建新的技能和能力，汇集共同的经验以便集体学习。我们还在探索如何将计算机模拟的机器人任务与物理的机器人经验结合起来，从而更快地学习新的任务。虽然模拟器的物理学与现实世界并不完全相匹配，但是团队发现，对于机器人学，模拟获得的经验加上少量的现实世界的经验就能给出比他拥有的大量现实世界经验更好的结果。

除了现实世界中的机器人的经验和模拟机器人环境之外，团队还开发了机器人学习算法，可以通过观察人类的示范来进行学习。这种模拟学习方法极具前景，能够非常快速地向机器人传递新的能力，而不需要明确的编程和明确目标的活动。团队还在 11 月份共同组织和主办了第一次新的机器人学习会议（CoRL），让机器学习和机器人交叉的研究人员聚集一堂。活动总结包含更多信息，明年这次会议将在在苏黎世再次举行。

12. 基础科学

团队也对使用机器学习帮助解决科学中的重要问题的长期潜力感到兴奋。去年，我们利用神经网络预测量子化学中的分子性质，在天文数据集中寻找新的系外行星，预测地震余震，并利用深度学习指导自动化的证明系统。

图丨信息传递神经网络预测量子化学中的分子性质

图丨寻找新行星

13. 创造性

团队致力于如何利用机器学习作为帮助人们进行创造性工作。2017 年，团队创造的一个 AI 钢琴二重奏工具帮助 YouTube 音乐家 Andrew Huang 创作了新的音乐，并展示了如何教机器画画。

团队还演示了如何控制深度生成模型在浏览器中创造新的音乐。这个作品赢得了 NIPS 2017 年度最佳模拟奖，这是继谷歌大脑团队的 Magenta 项目成员互动音乐即兴演奏的 NIPS 2016 最佳模拟奖之后，连续第二年赢得这一奖项。

14.PAIR ：人与 AI交互研究项目

机器学习的进步为人们如何与计算机交互提供了新的可能性。同时，确保社会能够从我们正在构建的技术中广泛受益就显得至关重要。谷歌大脑团队深知这些机会与挑战的重要性，并与谷歌的其他员工一起创建了 PAIR。PAIR 的目标是研究和设计人们与 AI 系统交互的最有效方法。

他们启动了一个公共研讨会，将来自计算机科学，设计甚至艺术学科的学者和实践者聚集在一起。PAIR 的工作涉及广泛的话题：通过解释性的工作帮助研究人员了解 ML 系统，并用 deeplearn.js 扩展开发人员社区。以人为中心的机器学习工程方法的另一个例子是 Facets 的推出，这是一哥=个可视化和理解训练数据集的工具。

15. 机器学习中的公平性与包容性

随着机器学习在技术上的作用越来越大，包容性和公平性的考量变得越来越重要。谷歌大脑团队和 PAIR 一直致力于这方面的工作。他们已经发表了如何通过因果推理避免机器学习系统中的歧视，开放数据集中地理多样性的重要性等研究，并公布了一份对开放数据集的分析，以理解多样性和文化差异。团队也一直与 Partnership on AI 密切合作，这是一个跨行业的机构，旨在确保对所有从业者的公平和包容性。

图丨文化差异和地理位置偏差在数据集中的体现

16. 团队文化

谷歌大脑团队研究文化的一个方面是让研究人员和工程师们有充分的自主性，解决他们认为最重要的基础研究问题。2017 年 9 月份，团队发布了开展研究的一般方法。

在研究过程中，对年轻人的教育与指导。去年，团队接待了 100 多名实习生，研究出版物中约有 25％有实习合作者。2016 年开始的 Google Brain Residency 是一个指导那些有志于机器学习研究的人的计划。在首年（2016 年 6 月至 2017 年 5 月），共有 27 人加入该项目，并在中期和一年刚刚结束之时发布了最新的研究成果信息。在 2017 年 7 月，该项目迎来了 35 位组成的第二批参与者。相比于第一批人普遍没有很深厚的背景，他们已经做了一些令人兴奋的研究，并在众多的研究场所发表。该项目目前已经更名为 Google AI Residency program，并扩大了项目范围，讲谷歌其它研究组也包括在内。

谷歌大脑团队在 2017 年的工作跨越了上下两部分组成的博客文章中强调的内容。去年，谷歌大脑共计发表了 140 篇论文，其中 ICLR，ICML 和 NIPS 有 60 多篇。新的一年，期待这个优秀的团队给人工智能和机器学习，以及整个人类社会带来更多的惊喜。

-End-

编辑：王维莹

来源：https://research.googleblog.com/2018/01/the-google-brain-team-looking-back-on.html

本书灵感源于“TR35”，即《麻省理工科技评论》享誉全球的“35 位 35 岁以下科技创新青年”（MIT Technology Review 35）青年人才榜，如果你想一睹全球科技创新领导者背后的精彩事迹，你也一定不能错过这本书。