谷歌昨天发布DeepVariant，今天就有家公司做了测评

2017 年 12 月 6 日 论智 Bing

来源：DNAnexus

编译：Bing

昨天，谷歌大脑团队发布了开源版本的DeepVariant，这是一种基于深度学习技术的碱基变体识别器。这是更新过的版本，DeepVariant的最初版本就在PrecisionFDA举办的挑战赛中获得了最高SNP性能奖。

DNAnexus是一家在全球范围内提供共享和管理基因组数据和工具的公司，以加速基因组医学发展为愿景，同时也是PrecisionFDA的合作伙伴。在DeepVariant发布的第二天，该公司就对这一技术进行了评估，希望能将其用于DNAnexus的平台上。本文将介绍评估的过程以及对深度学习和DeepVariant背后机制的简单讨论。

什么是深度学习？

随着技术的发展，不断增强的计算能力和大数据已经使多层复杂的深度神经网络的“学习潜力”超过了传统的统计方法。

一般来说，深度学习网络中输入的是相对原始的数据。前面的图层可以从中学习较为“粗略”的特征，例如用于计算机视觉中的边缘检测。后面的图层则从中学习更高级的、抽象的信息。而神经网络的架构是这些深度神经网络顺利工作的保证，只有特定的结构才能让信息组合有意义。

通过开放源代码框架TensorFlow、创建出优秀的机器翻译软件以及无人能敌的AlphaGo，谷歌正将其顶尖的的深度学习技术推进到数据中心的优化使用中。

什么是DeepVariant？

DeepVariant采用了TensorFlow的Inception框架，这个框架最初是用于图像分类工作的。DeepVariant将一个BAM转换成类似于基因组浏览器快照似的图像，然后根据是否有变体进行分类。理论上说，如果一个人能够在基因组浏览器中判断识别器是否是正确的，那么一个足够聪明的框架也能做到。

第一部分是收集有可能存在变异的基因序列样本。这就需要用非常灵敏的识别器找出任何有可能存在变体的区域。除此之外，DeepVariant执行的是局部重组，是Indel realignment的一个更彻底的版本。最后生成多维图像传至分类器。

第二部分是用TensorFlow框架识别变体。将图片输入到经过训练的Inception中，它就能识别SNP和Indel变体的标志。

这两部分都需要强大的计算力，如果搭建了GPU加速的TensorFlow环境，识别变体的速度将会更快。若再用上谷歌专门设计的TPU，那这一步可能会变得更快、更便宜。

Inception框架是一个“重量级”（heavy-weight）的深度学习架构，它在训练和应用上花费的计算成本很高。所以基因组学中的问题不能全部依赖Inception解决。目前在深度学习领域，为一个问题单独定制网络架构是相当费时费力的。所以使用经过验证的体系结构才是长远之计。

DeepVariant有多精确？

为了了解DeepVariant的实际表现，研究人员利用多种全基因组测序（WGS）设置，将DeepVariant与其他多种方式进行了比较。最终发现，DeepVariant在各项测试中的表现均优于目前常用的方式。

DNAnexus的研究人员设置了三个基准：HG001、HG002和HG005。这些数据都是从GIAB的基因组中构建的。他们通过评估，能帮助客户选择最佳的分析工具。评估在Illumia的hap.py上完成。以下的图表显示了几个样本上SNP和Indel错误的数量，数字越小越好（由于Indel错误率高，Samtools在Indel的图中没有显示）。