Nature子刊：人工智能从“垃圾”DNA中发现自闭症的新病因

2019 年 5 月 30 日 生物探索

目前，对于自闭症或其他疾病（如调节血糖水平、对抗感染以及治疗慢性病等）的基因组测序研究都集中在基因组可编码蛋白质的部分。

然而，这一已知部分仅仅约占到人类基因组的2%，剩下98%的基因组为非编码区域，既不能转录为相应的信使RNA （mRNA），也不能指导蛋白质合成，曾一直被认为是“垃圾DNA”而无人问津。近年来，随着对基因组的研究不断深入，越来越多证据显示，“垃圾DNA”并非“垃圾”。

近日，发表在《Nature Genetics》杂志上的一项研究更是结合人工智能的技术优越性，第一次将非编码DNA突变与神经发育联系在一起，并且也首次证明了非遗传性的非编码DNA突变可能是导致人类各类复杂疾病的新病因。

DOI：https://doi.org/10.1038/s41588-019-0420-0

“垃圾”DNA，可不垃圾

对于“非编码DNA突变可能导致遗传性自闭症风险”的最早研究来自于加州大学圣地亚哥分校。他们发现，新生基因突变（de novo mutation）只能解释约三分之一的自闭症谱系障碍(ASD)病例，而余下的风险可能解释为：非编码DNA的罕见遗传变异。详细研究内容发表在2018年4月20日的《Science》杂志上。

随后，在西蒙斯基金会的支持下，研究人员对近2000个家庭进行了全基因组测序研究。结果发现，患有自闭症的儿童比他们的兄弟姐妹具有更多在启动子区（非编码区）的新生突变，而非父母遗传。这暗示了非编码区域的新生突变导致自闭症的可能性。详细研究内容发表在2018年12月12的《Science》杂志上。

人工智能协助“破案”

由于，信息数量庞大且对非编码区域的功能知之甚少，绘制关于自闭症的非编码区域的作用“地图”极其困难。所以，在西蒙斯基金会的继续支持下，普林斯顿大学计算机教授Olga Troyanskaya与洛克菲勒大学神经学家Robert Darnell合作领导了一项关于训练人工智能学习模型来预测给定基因序列如何影响基因表达的研究。

左：Olga Troyanskaya教授右：Robert Darnell教授图片来源：普林斯顿大学、洛克菲勒大学

在这项最新的研究中，研究团队训练人工智能学习模型来预测给定序列如何影响基因表达。随后他们选使用机器学习分析了1790名自病症患者及其并未患病的父母及其兄弟姐妹的全基因组。之所以选择这类患者，是因为他们患上的自闭症属于新生突变，与遗传无关。

该研究的作者之一Chandra Theesfeld说：“这是对我们在基因研究的分析思路中引入的转变。我们在这里应用了一套智能复杂的工具，告诉我们任何特定的突变将会发生什么，甚至是那些罕见或以前从未观察到的突变。”

该分析模型预测了每个自闭儿童的非遗传性非编码突变的影响，也就是之前我们所提到的“垃圾DNA”，然后，他们将这些预测结果与其他未受到影响的兄弟姐妹的非编码未突变区域进行比较。

结果发现，与非编码突变相关的自闭症病例的数量与编码区突变的病例数量相当！也就是说，非编码突变是自闭症的另一重要病因。

研究还发现，这些非编码突变不仅仅改变了基因调控，还影响了大脑中的基因表达和已知与自闭症相关的基因，例如那些负责神经元迁移和发育的基因。

Troyanskaya表示，这项工作的意义深远。她说，“这是第一次明确证实由非遗传性非编码突变导致的复杂人类疾病。”同样，该研究的共同第一作者、Troyanskaya的同事Jian Zhou也表示，科学家可以应用新研究中的技术来探索非编码突变在癌症和心脏病等疾病中的作用。这会使人们对许多人类疾病的原因产生新的认识。

在接下来的日子里，Troyanskaya将和同事们继续改进和更新人工智能的预测方法。她希望这项工作能够进一步改善遗传数据在诊断和治疗疾病中的应用。 Troyanskaya 继续说道，“现在，98％的基因组通常会被忽视，而我们的工作可以重新思考这些98%的“垃圾”能做些什么。”

End

参考资料：

[1] New causes of autism found in 'junk' DNA

[2] Variants in non-coding DNA contribute to inherited autism risk

[3] Noncoding mutations contribute to autism risk

本文系生物探索原创，欢迎个人转发分享。其他任何媒体、网站如需转载，须在正文前注明来源生物探索。