新智元报道
编辑:时光
当前,新冠病毒适应性增强,变异毒株反复出现。
于是,科学家开发了一种机器学习模型,分析了新冠病毒样本的600多万个基因组。
据此,这可以预测出哪些病毒变体将占主导,并可能引发新的疫情。
研究结果发表在5月24日Science期刊上。
论文地址:https://www.science.org/doi/10.1126/science.abm1208#con13
PyR0模型
为了快速检测和鉴定新谱系,科学家开发了这个叫作PyR0的模型。
这个模型包含3000个集群,来自1544个PANGO谱系和2904个非同义突变。
通过算法,又将1544个PANGO谱系细化为3000个更细的集群。
研究人员使用流感数据共享全球倡议数据库,截止到2022年1月,共600多万个新冠病毒基因组,训练了机器学习模型。
这对于指导应对疫情至关重要!因为当某一变异毒株出现时,可以迅速确定这类谱系,并准确预测其动态。
PyR0一种分层贝叶斯回归模型,对公开获得的全部病毒基因组进行可扩展分析,并可应用于任何病毒基因组数据集。
然而,当前新冠病毒的特点是,更高适应度的新世代出现,驱动反复病例波。
所谓的病毒适应度,它包括基本繁殖数、逃避现有免疫能力和世代时间。
训练后的模型可以用来推断谱系适应性,并估计个体突变对适应度的影响。
研究发现
模型显示,随着时间的推移,所有谱系的适应度都上升,并被几个适应度更高的谱系打断。
关于模型的预测能力,研究发现,对未来1-2个月的预测是可靠的。
PyR0模型的计算速度也是值得称赞的,分析数百万个基因组仅需1小时!
它将相似的序列组合在一起,并通过它们共享的突变群来定义基因组的「组别」。
PyR0具有强大的统计能力!
最后,该模型可以确定哪些突变将越来越普遍,并估计每种突变导致病毒传播的速度。
参考资料:
https://news.sciencenet.cn/htmlnews/2022/5/479928.shtm