谷歌昨天发布DeepVariant,今天就有家公司做了测评

2017 年 12 月 6 日 论智 Bing
来源:DNAnexus
编译:Bing

昨天,谷歌大脑团队发布了开源版本的DeepVariant,这是一种基于深度学习技术的碱基变体识别器。这是更新过的版本,DeepVariant的最初版本就在PrecisionFDA举办的挑战赛中获得了最高SNP性能奖。

DNAnexus是一家在全球范围内提供共享和管理基因组数据和工具的公司,以加速基因组医学发展为愿景,同时也是PrecisionFDA的合作伙伴。在DeepVariant发布的第二天,该公司就对这一技术进行了评估,希望能将其用于DNAnexus的平台上。本文将介绍评估的过程以及对深度学习和DeepVariant背后机制的简单讨论。

什么是深度学习?

随着技术的发展,不断增强的计算能力和大数据已经使多层复杂的深度神经网络的“学习潜力”超过了传统的统计方法。

一般来说,深度学习网络中输入的是相对原始的数据。前面的图层可以从中学习较为“粗略”的特征,例如用于计算机视觉中的边缘检测。后面的图层则从中学习更高级的、抽象的信息。而神经网络的架构是这些深度神经网络顺利工作的保证,只有特定的结构才能让信息组合有意义。

通过开放源代码框架TensorFlow、创建出优秀的机器翻译软件以及无人能敌的AlphaGo,谷歌正将其顶尖的的深度学习技术推进到数据中心的优化使用中。

什么是DeepVariant?

DeepVariant采用了TensorFlow的Inception框架,这个框架最初是用于图像分类工作的。DeepVariant将一个BAM转换成类似于基因组浏览器快照似的图像,然后根据是否有变体进行分类。理论上说,如果一个人能够在基因组浏览器中判断识别器是否是正确的,那么一个足够聪明的框架也能做到。

第一部分是收集有可能存在变异的基因序列样本。这就需要用非常灵敏的识别器找出任何有可能存在变体的区域。除此之外,DeepVariant执行的是局部重组,是Indel realignment的一个更彻底的版本。最后生成多维图像传至分类器。

第二部分是用TensorFlow框架识别变体。将图片输入到经过训练的Inception中,它就能识别SNP和Indel变体的标志。

这两部分都需要强大的计算力,如果搭建了GPU加速的TensorFlow环境,识别变体的速度将会更快。若再用上谷歌专门设计的TPU,那这一步可能会变得更快、更便宜。

Inception框架是一个“重量级”(heavy-weight)的深度学习架构,它在训练和应用上花费的计算成本很高。所以基因组学中的问题不能全部依赖Inception解决。目前在深度学习领域,为一个问题单独定制网络架构是相当费时费力的。所以使用经过验证的体系结构才是长远之计。

DeepVariant有多精确?

为了了解DeepVariant的实际表现,研究人员利用多种全基因组测序(WGS)设置,将DeepVariant与其他多种方式进行了比较。最终发现,DeepVariant在各项测试中的表现均优于目前常用的方式。

DNAnexus的研究人员设置了三个基准:HG001、HG002和HG005。这些数据都是从GIAB的基因组中构建的。他们通过评估,能帮助客户选择最佳的分析工具。评估在Illumia的hap.py上完成。以下的图表显示了几个样本上SNP和Indel错误的数量,数字越小越好(由于Indel错误率高,Samtools在Indel的图中没有显示)。

在这个样本上,DeepVariant识别的SNP错误率明显低于其他方法,比Samtools的错误减少了10倍。在Indel上,DeepVariant也是妥妥的赢家。

换个样本,DeepVariant也是稳赢。

不同基准上的评估

做完了标准基准评估,研究人员想看看有没有能让DeepVariant表现不佳的样本。他们有些担心机器学习模型可能过度适应了他们的训练条件。

2014年,Garvan研究所通过DNAnexus首次公开发布HiSeqX Genome。然而,新测序仪第一次运行测试的结果质量不如几年后生成的结果。2016年,Garvan为PrecisionFDA挑战赛提供了一个无PCR的HiSeqX,作为高质量的数据集。

为更好地评估DeepVariant在不同样本上的表现,研究人员将它与其他开源方法同时应用到基因组中。

在2014年的Garvan HiSeqX中,DeepVariant在SNP识别上遥遥领先。但是在Indel识别中表现最差,每一类都有超过10万个错误。

为了进一步测试DeepVariant,研究人员将其应用至NovaSeq上,是Illumia今年新推出的测序仪器。它们使用了BaseSpace的NA12878-I30作为样本,测序深度从35X降到19X。

结果显示,即使在NovaSeq的低覆盖率这样的版本上,DeepVariant也比其他版本优秀。现在看来,不论是什么样本,也不论在何种机器、测序深度上,DeepVariant的表现都是最好的。

除了这里展示出来的对比图,研究人员还在35X的NovaSeq数据集、2016版HiSeqX Garvan高质量样本以及HG005上做了对比,结果大致相同。

DeepVariant需要多大的计算能力?

之前提到,DeepVariant虽然拥有高精确度,但是对计算能力也有很高的要求。虽然GPU(或TPU)能减轻一些负担,但所需要的计算强度仍然很高。

下图展示了在不使用GPU的情况下完成HG001的CPU运行时间(数字越低越好):

不过,DNAnexus表示他们的云平台能够以更低的成本实现云资源的广泛并行。同时运行多台机器,可以在几小时内做完原本需要830个小时的任务。

结语

十多年来,专家一直在对下一代测序中的SNP和Indel问题进行改进。而DeepVariant的作者利用深度学习框架,在短短几年时间里就弥补了传统方法的不足,让基因组测序的准确度更上一层楼。

DeepVariant真正厉害的地方不在于它能精准地识别变体(这一领域早已成熟),而是它为深度学习在生物医疗领域做出的贡献,能让科学家们在这个新兴领域迅速实现以往需要几十年才能取得的成就。

原文地址:https://blog.dnanexus.com/2017-12-05-evaluating-deepvariant-googles-machine-learning-variant-caller/

登录查看更多
1

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
500万照片+20万地标,谷歌更新最大地标数据集
阿里云发布机器学习平台PAI v3.0
雷锋网
13+阅读 · 2019年3月22日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
AutoKeras:谷歌 AutoML 的杀手!
云头条
3+阅读 · 2018年8月2日
2017年四巨头的深度学习框架之战,你支持谁?
全球人工智能
6+阅读 · 2017年12月29日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
8+阅读 · 2018年3月20日
Arxiv
8+阅读 · 2018年1月30日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
500万照片+20万地标,谷歌更新最大地标数据集
阿里云发布机器学习平台PAI v3.0
雷锋网
13+阅读 · 2019年3月22日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
AutoKeras:谷歌 AutoML 的杀手!
云头条
3+阅读 · 2018年8月2日
2017年四巨头的深度学习框架之战,你支持谁?
全球人工智能
6+阅读 · 2017年12月29日
相关论文
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
8+阅读 · 2018年3月20日
Arxiv
8+阅读 · 2018年1月30日
Arxiv
3+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员