Nature Method|FIT模型从老鼠数据预测人类疾病基因

2022 年 2 月 14 日 GenomicAI

最近，辉瑞与以色列CytoReason签署了合作协议，利用CytoReason的免疫系统机器学习模型进行药物研发。我们可以一窥CytoReason团队的疾病模型算法逻辑：在2018年11月6日发表在nature上的文章“Found In Translation: a machine learning model for mouse-to-human inference”，该文章提出了FIT机器学习模型，通过小鼠基因表达数据预测人类疾病及其相关基因。

小鼠是研究人类疾病最广泛和最具成本效益的模型。然而，从临床的角度来看，在小鼠身上成功的治疗实验在人类临床试验中经常失败。因此，迫切需要开发改进跨物种翻译研究的方法学。

FIT是一个数据驱动的统计模型，给出一个小鼠基因表达实验，预测了与类似的人类条件相关的基因。FIT利用对公开的老鼠和人类基因表达数据的全面收集，允许从新的老鼠实验到人类的更具信息量的映射。

01 人-鼠基因表达纲要

作者手工注释了170个微阵列和RNA-seq基因表达数据集，这些数据集来自基因表达总括(GEO)，包括小鼠和人类的疾病对照样本和健康对照样本。然后，将小鼠模型数据集与可比条件下的人类疾病数据集配对，以产生跨物种配对(CSP，cross-species pairings)(图1)。对于每个物种中的每个CSP，作者计算了数据集内效应大小，以捕捉疾病和对照样本之间的差异。这项工作总共产生了涵盖28种不同疾病的170个CSP(62个参考和108个标准)的概要，用这些概要来研究人类和小鼠的同源基因在相似条件下的表达，并作为FIT的训练数据。

02 从老鼠数据预测人类疾病基因的模型

作者拟合了线性模型，使用LASSO回归预测每个基因的人类效应大小，通过结合测量的小鼠基因表达和关于小鼠和人类之间的相似和不同的先验知识来预测每个基因的人类效应大小。

给定一个新的老鼠疾病与对照基因表达实验，FIT遵循三个步骤：(1)为训练纲要中的每个数据集计算每个基因的人类效应大小(用RNA-seq数据集估计Fold change 和微阵列数据集计算的z test)。(2)学习老鼠与人的关系的基因水平LASSO模型，由此新的鼠标数据指示根据训练数据进行调整的估计效应大小。训练数据被Bootstrap100次以确定置信区间。(3)通过计算Bootstrap模型估计的人体效应大小的平均值来预测人体效应大小(图1)。

图1 FIT模型结合了一个新的小鼠基因表达实验和用于训练的成对的人类和小鼠模型疾病对照数据集(CSP)的参考纲要

03 FIT预测评估

为了设定跨物种差距的定量参考点，作者对纲要中所有CSP的人与鼠的相似性进行了系统的评估。将分析限制在一对一的同源序列上，作者通过设置不同的fold change和Q值阈值来识别每个物种中的差异表达基因(DEG)。小鼠和人类DEG之间的重叠定义为真阳性(TP)（图2），并将所有小鼠DEG中TP基因的比率定义为TP部分。当Q值等于0.05，fold change等于0.1(绝对值最高折叠变化基因的10%)时，小鼠的最大TP组分为34%，这意味着当将小鼠的结果直接翻译给人类时，最多只有三个基因中的一个是共享的，平均每20个基因中就有一个(图3)。作者计算了种内配对之间的TP分数(同一物种的每种疾病内所有可能的配对比较)作为对照。，与CSP相比，种内配对的TP组分明显更高。将这一分析推广到所有117个阈值，物种间TP组分的平均大小是物种内的1/3。作者的结论是，通过小鼠基因表达的直接推断来识别与人类疾病相关的基因并不能捕捉到大部分人类信号。

图2 鼠-人疾病参考纲要包括按疾病组织的CSP

图3 fold change阈值=0.1和Q值阈值=0.05的简编中每个CSP的平均TP分数(TP/小鼠总密度)，并与28种疾病的人内和小鼠内配对进行比较

为了评估FIT，作者使用了一种剔除一种疾病的方法：对于每个疾病数据集，从训练大纲中删除了与该疾病相关的所有CSP。将小鼠疾病数据集作为测试实验，并将其与训练大纲一起用作FIT的输入，以预测每个基因的人类效应大小。然后，用遗漏的疾病人类数据集测试这些估计。

例如，Sdf2编码一种内质网应激相关蛋白，以前与疾病无关。提出的训练纲要包括除脓毒症CSP(图4a，上部)的测量之外的所有先前的Sdf2测量，符合大多数Bootstrap回归模型中估计的负斜率，这意味着一种反向的跨物种关系。这导致FIT预测与原始鼠标值相反的效果大小(图4a，底部)。为了全面评估FIT，作者定义了特定阈值组合的每个数据集的FIT DEGS，即一组大小与相同阈值下的鼠标DEG大小相等的基因，其FIT估计的效应大小在绝对值上排名最高。比较小鼠直接分析和FIT衍生分析对其中一种脓毒症CSP的性能，作者对比了小鼠TP基因和FIT TP基因，并观察到总共184个人类DEG被FIT“拯救”(图4b，Q=1，倍数变化=0.1)。

图4 a.Sdf2基因在脓毒症中的适合性预测 b.一例脓毒症CSP的人与鼠折叠变化值

接下来，作者对所有28种疾病和170个CSP进行了留下一种疾病验证程序，比较了FIT和小鼠数据之间的TP分数(图5，左)。通过计算FIT和原始小鼠数据分析的假阳性、假阴性和真负值，将FIT的评估扩展到一个完整的混淆矩阵。然后，通过计算FIT和小鼠标值的敏感度和特异值以及计算FIT和鼠标之间的TP、真阴性、假阳性和假阴性值的比率来比较小鼠性能和FIT的性能(图5，右)。作者对117个倍数变化和Q值阈值组合重复了这个过程。与原始的小鼠分析相比，当灵敏度和或特异度提高时，翻译洞察力将得到改善，理想情况下，当TP比率>1、真阴性率>1、假阳性率<1和假阴性率<1时。

图5 FIT评估程序

对于170个CSP，我们基于多个折叠变化阈值上的真和假比率的行为观察到五类相对拟合性能(图6(Q=1))。这些包括主要和次要信号增益-即FIT明显捕获了比原始小鼠更多与人类相关的信号，有或没有减少错误导联-以及主要和次要信号损失，其中基于FIT的分析捕获的与人类相关的信号较少，并且可能比直接从小鼠分析引入更多的错误线索。在这两个极端之间，观察到一个“相等的信号”类别，表现出中等的性能。

图6 FIT能根据Q=1时的混淆矩阵值和变化的折叠变化阈值分为五类

为了能够稳健地使用FIT，作者基于降维的老鼠训练数据构建了一个分类器，旨在预测FIT何时将提高与人类数据的相似性。在所有阈值对中，分类器正确地预测了对于80%的测试案例，与传统的鼠标数据分析(图7)相比，FIT是否会平均提高TP率。作者的评估表明，FIT能够显著增加与人类设计的重叠，并减少在可预测的老鼠实验子集中的错误结果的数量。

图 7 FIT对3条已知与IBD相关的通路进行了富集

04 FIT可以预测仅靠老鼠数据无法发现的疾病基因

为了理解FIT何时表现最好，作者对与FIT性能相关的特征进行了描述。FIT主要在感染性疾病和炎症条件下增加TP组分，但在癌症中表现不佳。组织方面，当小鼠组织来自脾脏、血液、肺和肠道时，FIT表现良好，而人体组织表现最佳的是血液和肠道。

作者重点研究了10种‘FIT改善的疾病’，其中大多数CSPs表现出FIT改善的信号(包括81种CSPs):脓毒症、杜氏肌营养不良、葡萄球菌感染、损伤、烧伤、炎症性肠病(IBD)、戈谢病、囊性纤维化、大肠杆菌感染和类风湿关节炎。在这些疾病的所有117个阈值中，与考虑所有FIT DEGs相比，将分析限制在30%最小的CIs（smallCI）基因时，TP分数显著更高(图3a, P≤10−16，均值单尾Mann-Whitney检验)。随机选择的基因集和所有的FIT预测之间没有显著差异。种内TP分数可能设置了翻译改进的上限；平均而言，FIT增加了20%的TP部分，而聚焦于smallCI基因则增加了50%的TP部分。在某些阈值中，TP分数接近于种内渐近线，这表明CIs可以用作FIT预测的可靠性评分(图8)。

图8 老鼠DEG(蓝色)、FIT DEG(粉色)、具有最小30%顺式(红色)和种内DEG(黑色)的适配度的子集Tp组分

“假定基因”定义为FIT建议与人类高度相关但未被老鼠分析检测到的基因。平均而言，28%的假定基因被“拯救”，它们在类似的人类条件下高度表达。为了确定FIT是通过在不同数据集中重复增强特定的一组基因还是通过增强一组不同的基因来提高性能，作者计算了FIT增强每个基因的CSP数量。FIT的预测主要是根据输入的小鼠数据量身定做的。此外，观察假定基因的功能富集表明，FIT预测并不局限于特定的功能群(图9)。

图9 基因本体论(GO)项富集分析

ILF3可以在实验上展示FIT预测的力量，ILF3是一个FIT假定基因，尽管在IBD小鼠模型或人类数据集中没有检测到，但与健康对照组相比，ILF3在IBD患者的结肠中预计会上调。ILF3与IBD没有关联，但它的基因变异与类风湿性关节炎、牛皮癣和几种癌症有关。炎症性肠病患者结肠中ILF3蛋白的免疫染色显著高于健康对照组(图10)。最后，为了证明FIT在下游分析中的有效性，作者仅在IBD数据集中识别了FIT显著丰富的路径。其中最重要的是与IBD相关的通路，包括补体和凝血级联，抗原处理和呈递，以及神经营养因子信号通路。因此，FIT能够增强老鼠数据中较弱的疾病相关通路的信号(图7)。

图10 ILF3与IBD相关性拟合预测的验证

综上所述，这些结果表明，通过利用先前的数据，FIT分析可能挽救被跨物种差异掩盖的基因和途径，并预测新的人类疾病关联。

由于翻译研究是困难的，药物开发是一个漫长而昂贵的过程，减少动物模型的错误线索至关重要。作者认为，FIT应该与标准分析一起使用，作为一种快速提取关于人类生物学的更多结论的方法。任何新的实验都应该在不考虑先前表达数据的积累的情况下进行分析，FIT利用这些数据来解释老鼠和人类之间基因功能和调控的进化和环境差异。FIT提供了一种新的数据重用范例，可以扩展到其他数据类型和物种，以及涉及映射的其他生物学问题。

论文提供代码与数据

FIT is available as a web tool at http://www.mouse2man.org and as an R package at https://github.com/shenorrLab/FIT.mouse2man。