编辑:时光
【新智元导读】近日,《科学》发文《新危险?计算机在原有基因数据中发现10万个新病毒》,文章指出,关于未来疫情的线索可能隐藏在现有基因数据中。
仅仅一种新冠病毒,就使世界经济瘫痪,导致数百万人死亡。
然而,病毒学家估计,目前仍有数万亿种未知病毒存在。
其中,许多可能是致命的,或有可能引发下一次大疫情。
1月26日,科学家在Science上发文,题为《新危险?计算机在原有基因数据中发现10万个新病毒》,指出关于未来疫情的线索可能隐藏在现有基因数据中。
因为病毒数增加了一个量级,研究将使用RNA,而不是DNA。
「这是一项基础性工作。」美国国家医学图书馆J. Rodney Brister说。
研究还将启动所谓的拍字节(Petabytes)基因组学,1PB=1024TB,将对RNA和DNA进行数据分析。
「这也表明我们对病毒的认识严重缺乏。」疾病生态学家Peter Daszak说。
Peter Daszak是纽约市生态健康联盟的主席,这是一个非营利性研究组织,该组织正在筹集资金开展一项全球病毒调查。
通过筛选空前规模的现有基因组数据,科学家们发现了近13.2万个RNA病毒基因组。
「这是一项令人印象深刻的工程壮举!」生物信息学家C. Titus Brown说。
时间回到2020年初,剑桥大学计算生物学家Artem Babaian开始这项工作。
Babaian很好奇,他想,除了这次暴发的新冠病毒COVID-19以外,还有多少冠状病毒序列?
带着这个疑问,Babaian找到了Jeff Taylor,Taylor是一名超级计算专家,他们联合检索了基因组数据。
这些数据已经存储在一个全球序列数据库中,并由美国国家卫生机构负责。到目前为止,这个数据库包含了16拍字节的存档序列,这些序列来自从河豚到土壤再到人类的各种基因数据。在这些样本中,感染不同生物体的病毒基因组都可以通过测序得到,而它们通常无法被检测出来。
Babaian和Taylor设计了一套专门用于搜索云数据的计算工具,在其它几位生物信息学专家的帮助下优化了软件。他们的分析「比任何人想象得都要快」,每天可以处理100万组数据,每组数据的计算成本不到1美分。
他们很快将病毒搜索范围扩大到冠状病毒之外,并查看了云中的所有数据,这类病毒还包括那些导致流感、脊髓灰质炎、麻疹和肝炎的病毒。
其实,新数据库并没有每个新病毒的完整序列,只有RNA聚合酶(RNA polymerase)的基因。
研究人员通过寻找RNA聚合酶来进行研究,RNA聚合酶是所有RNA病毒复制的关键。
为此,研究人员利用部分序列来构建家谱,揭示不同病毒之间的关系,以及它们的进化规律,还可以找出特定病毒的发现地点和宿主。
「我们已经把数据库变成一个巨大的病毒监控网络。」Babaian说。
生物信息学家C. Titus Brown表示,这可以帮助研究人员更好地理解人类病原体是如何产生的,并改进病毒感染的诊断测试,
「当一种新的病毒从病人身上分离出来时,研究人员可以更容易地判断它,是否已经在其他地方被发现。」Brown说。
病毒公共数据库:
https://www.serratus.io/
在一些水生动物中,比如,河豚,蝾螈,研究发现了未知的冠状病毒,并可据此拼凑出整个病毒基因组。序列表明,「新型冠状病毒基因组有两个独立的环,而不是通常的单个RNA链。Babaian的报告如此陈述。
在噬菌体的研究中,人、猫、狗都发现了巨型噬菌体,噬菌体是侵袭细菌的病毒,也是赋予宿主菌生物学性状的遗传物质,研究找到了超过250种噬菌体,这些病毒与藻类病毒相似。
为此,Babaian团队创建了一个公共资源库,在这个公共资源库中,其他人可以利用这项研究的工具与成果。
参考资料:
https://www.science.org/content/article/new-dangers-computers-uncover-100-000-novel-viruses-old-genetic-data
https://www.serratus.io/