昨天,谷歌大脑团队发布了开源版本的DeepVariant,这是一种基于深度学习技术的碱基变体识别器。这是更新过的版本,DeepVariant的最初版本就在PrecisionFDA举办的挑战赛中获得了最高SNP性能奖。
DNAnexus是一家在全球范围内提供共享和管理基因组数据和工具的公司,以加速基因组医学发展为愿景,同时也是PrecisionFDA的合作伙伴。在DeepVariant发布的第二天,该公司就对这一技术进行了评估,希望能将其用于DNAnexus的平台上。本文将介绍评估的过程以及对深度学习和DeepVariant背后机制的简单讨论。
随着技术的发展,不断增强的计算能力和大数据已经使多层复杂的深度神经网络的“学习潜力”超过了传统的统计方法。
一般来说,深度学习网络中输入的是相对原始的数据。前面的图层可以从中学习较为“粗略”的特征,例如用于计算机视觉中的边缘检测。后面的图层则从中学习更高级的、抽象的信息。而神经网络的架构是这些深度神经网络顺利工作的保证,只有特定的结构才能让信息组合有意义。
通过开放源代码框架TensorFlow、创建出优秀的机器翻译软件以及无人能敌的AlphaGo,谷歌正将其顶尖的的深度学习技术推进到数据中心的优化使用中。
DeepVariant采用了TensorFlow的Inception框架,这个框架最初是用于图像分类工作的。DeepVariant将一个BAM转换成类似于基因组浏览器快照似的图像,然后根据是否有变体进行分类。理论上说,如果一个人能够在基因组浏览器中判断识别器是否是正确的,那么一个足够聪明的框架也能做到。
第一部分是收集有可能存在变异的基因序列样本。这就需要用非常灵敏的识别器找出任何有可能存在变体的区域。除此之外,DeepVariant执行的是局部重组,是Indel realignment的一个更彻底的版本。最后生成多维图像传至分类器。
第二部分是用TensorFlow框架识别变体。将图片输入到经过训练的Inception中,它就能识别SNP和Indel变体的标志。
这两部分都需要强大的计算力,如果搭建了GPU加速的TensorFlow环境,识别变体的速度将会更快。若再用上谷歌专门设计的TPU,那这一步可能会变得更快、更便宜。
Inception框架是一个“重量级”(heavy-weight)的深度学习架构,它在训练和应用上花费的计算成本很高。所以基因组学中的问题不能全部依赖Inception解决。目前在深度学习领域,为一个问题单独定制网络架构是相当费时费力的。所以使用经过验证的体系结构才是长远之计。
为了了解DeepVariant的实际表现,研究人员利用多种全基因组测序(WGS)设置,将DeepVariant与其他多种方式进行了比较。最终发现,DeepVariant在各项测试中的表现均优于目前常用的方式。
DNAnexus的研究人员设置了三个基准:HG001、HG002和HG005。这些数据都是从GIAB的基因组中构建的。他们通过评估,能帮助客户选择最佳的分析工具。评估在Illumia的hap.py上完成。以下的图表显示了几个样本上SNP和Indel错误的数量,数字越小越好(由于Indel错误率高,Samtools在Indel的图中没有显示)。
在这个样本上,DeepVariant识别的SNP错误率明显低于其他方法,比Samtools的错误减少了10倍。在Indel上,DeepVariant也是妥妥的赢家。
换个样本,DeepVariant也是稳赢。
做完了标准基准评估,研究人员想看看有没有能让DeepVariant表现不佳的样本。他们有些担心机器学习模型可能过度适应了他们的训练条件。
2014年,Garvan研究所通过DNAnexus首次公开发布HiSeqX Genome。然而,新测序仪第一次运行测试的结果质量不如几年后生成的结果。2016年,Garvan为PrecisionFDA挑战赛提供了一个无PCR的HiSeqX,作为高质量的数据集。
为更好地评估DeepVariant在不同样本上的表现,研究人员将它与其他开源方法同时应用到基因组中。
在2014年的Garvan HiSeqX中,DeepVariant在SNP识别上遥遥领先。但是在Indel识别中表现最差,每一类都有超过10万个错误。
为了进一步测试DeepVariant,研究人员将其应用至NovaSeq上,是Illumia今年新推出的测序仪器。它们使用了BaseSpace的NA12878-I30作为样本,测序深度从35X降到19X。
结果显示,即使在NovaSeq的低覆盖率这样的版本上,DeepVariant也比其他版本优秀。现在看来,不论是什么样本,也不论在何种机器、测序深度上,DeepVariant的表现都是最好的。
除了这里展示出来的对比图,研究人员还在35X的NovaSeq数据集、2016版HiSeqX Garvan高质量样本以及HG005上做了对比,结果大致相同。
之前提到,DeepVariant虽然拥有高精确度,但是对计算能力也有很高的要求。虽然GPU(或TPU)能减轻一些负担,但所需要的计算强度仍然很高。
下图展示了在不使用GPU的情况下完成HG001的CPU运行时间(数字越低越好):
不过,DNAnexus表示他们的云平台能够以更低的成本实现云资源的广泛并行。同时运行多台机器,可以在几小时内做完原本需要830个小时的任务。
十多年来,专家一直在对下一代测序中的SNP和Indel问题进行改进。而DeepVariant的作者利用深度学习框架,在短短几年时间里就弥补了传统方法的不足,让基因组测序的准确度更上一层楼。
DeepVariant真正厉害的地方不在于它能精准地识别变体(这一领域早已成熟),而是它为深度学习在生物医疗领域做出的贡献,能让科学家们在这个新兴领域迅速实现以往需要几十年才能取得的成就。
原文地址:https://blog.dnanexus.com/2017-12-05-evaluating-deepvariant-googles-machine-learning-variant-caller/