Genome Biology | DeepRepeat: 对纳米孔测序信号数据的短串联重复进行直接的量化分析

作者 | 尹成林编辑 | 龙文韬校对 | 李仲深作者针对短串联重复序列这个生物学中的特殊motif和最新一代的纳米孔测序相结合，开发了DeepRepeat，讲纳米孔测序的电信号转化为RGB通道的图像，使用深度学习模型对图像进行处理，最终实现对序列的分类。作者在一般数据集和全基因组数据集上进行了测试，验证了模型性能。

一、研究背景

STR是一种特殊的motif，比如GGGGCC是一个和肌萎缩相关的STR的motif序列，作者研究的对象为Repeat expansion of special STRs，即STR的重复出现问题，这与多种疾病都相关。但是目前的工具存在各种问题，简要可以分析为以下几类： * 传统的测序如电泳测序成本很高，二代测序技术的测序长度不满足重复出现的长度需求：二代测序一般在100-150bp，低于大部分重复出现的STR长度，所以很难适应需求。 * 纳米孔测序的输出满足长度的需求，但是存在basecalling的较高的错误率，随着STR重复区域的长度增加，错误率也随之增加。 * 目前可以使用的工具使用的是合成信号而不是测序信号本身，有一定的误差可能。

二、总览

作者提出了一种深度学习工具DeepRepeat，可以直接从纳米孔电信号中准确检测STRs，而不使用合成信号。作者提出的模型输入为纳米孔电信号（确切的说包含参考基因组，bam对齐文件以及basecalled之后包含event的fast5文件），输出为STRs Repeat的计数值。可以划分为中有三个步骤：将信号转换为图像，使用深度学习对每个核苷酸进行STR预测，并总结对多个reads的预测以推断重复计数 s。具体流程如图1所示。

图1 repeat工作流程简图

三、模型与方法

3.1 图像转换

作者认为这一步是方法中最新颖和关键的步骤。由以下步骤构成：1.进行归一化处理，将所有信号范围标准化到（-5，5）之间，随后作者将电信号映射到50个bin中，每个bin的长度为0.2，每个bin的值为当段event中落入对应bin范围所占的比例，这样每个event都可以使用一个向量进行表示，最终将该向量归一化到（0， 255）范围内，0-255是和图像相同的区间。最后，人为的给定超参数STR长度R，将R个向量堆叠在一起生成一张长度为50，宽度为R的黑白灰度图像。为了更快的识别Repeat，作者同时提取了R-mer的前R区间和后R区间，将三个长度为R的图像设置为三通道，分别为红蓝绿，并将三通道图像叠加生成一张完整的最终的image图像，这样在肉眼识别中，repeat具有一定特征：含有较多白块，如图1左上角第一张图，如不是repeat区域，红蓝绿分布较为均匀，且具有随机分布的特征。

**3.2 深度模型分类 **

作者使用了基础的CNN模型进行了图像分类，筛选出含有repeat和不含repeat的图像，包含了两个隐含层和池化层，最终输出一个四分类：“Repeat”， “not Repeat”， “Repeat删除”， “Repeat插入“。

**3.3 Repeat计数重新量化 **

使用训练好的模型所有核苷酸进行预测，或仅对那些与感兴趣的参考区域对齐的长读的碱基进行预测。在后一种情况下，一组fast5所有fastq序列使用minimap与纳米孔长读取对齐。为每一个长读取与一个re对齐，如果STR区域的长度是重复单元的长度和重复单位的长度i的3倍，则将任何连续的STR区域进行合并两个接近的STR区域之间的距离小于重复单元的长度。合并后的STR区域的Te长度除以重复单元的长度，得到重复计数。以类似的方式，对所有与感兴趣区域对齐的长读取的重复计数进行估计，并生成一个重复计数的直方图，其中条目是重复计数a 该条目的值是在与感兴趣区域对齐的所有长读取中检测到的这个重复计数的时间。

**3.4 数据集构建 **

在将信号转换为彩色图像后，以下一般过程用于分配数据标签（“重复”或“不重复”或“重复删除”或“重复插入”）图像将长reads的fastq序列与参考基因组(本研究中的GRCh38)对齐后，(i)如果一个核苷酸与任何重复区域的任何碱基对齐，则分配“重复” 以长读核苷酸为中心的图像；(ii)如果一个核苷酸是重复区域1bp的插入（删除），则“重复的插入”（“重复的删除”）被分配给t 他在长读取中以核苷酸为中心的图像；(iii)如果一个核苷酸被剪切或插入（较大的插入）从STR区域开始，或与非整数的STR区域对齐，图像没有标签构建（不用于训练或测试）；(vi)对于不与任何STR区域对齐的长序列中的其他长reads核苷酸，用来构建图像标签“不重复”。

四、实验结果

作者测试了DeepRepeat来估计11个亨廷顿氏病(HD)细胞系的重复计数，在HD样本的纳米孔数据集上训练了模型。（HD是一个神经度由HTT基因外显子-1中CAG重复扩增引起的遗传性疾病。）作者使用了11HDce的HTT外显子-1区域的高覆盖率(~4000X)靶向纳米孔测序数据并进行了Sanger测序以确定重复计数。11个样本的致病性扩增等位基因的Repeat计数范围为39~72，而正常等位基因的重复计数范围为17~21。作者比较了 DeepRepeat, RepeatHMM , Tandem-genotypes , and STRique四个工具在数据集上的性能。如图2所示，a中展示了在~15X降采样数据上，估计的重复计数与基准重复计数的相关性（每个数据为3次）。b展示了四种方法的估计重复计数减去基准重复计数的差异。c图展示了估计的重复计数和基准重复计数的平均绝对偏差（误差）。“所有”表示所有重复计数，而“致病性”仅表示致病性重复计数。d图一个样本(ND30422)的基准重复计数分别为18和40（用洋红色表示）的所有长读取的估计重复箭头计数的分布。e图展示了另一个样本(ND30626)的所有长读取的重复计数的估计分布，该样本的基准重复计数分别为21和41（用洋红色的向下箭头表示）。d和e中x轴表示估计的重复计数；y轴表示每个估计的重复计数的支持读取数。f展示了深度重复和其他方法之间支持读取的差异。

图2 对11个带有CAG重复序列的亨廷顿氏病样本和NA12878数据集进行Repeat计数。

作者还测试了Deep Repeat在不同数据集上的迁移性能，同另一个工具HipSTR进行比较。如图3所示，a表示Deep Repeat在HX1上进行深度重复训练时，HipSTR在NA12878的高覆盖率短读数据进行重复计数，并对纳米孔数据进行重复推断， b表示通过Deep重复对纳米孔数据的重复计数，通过HipSTR对HX1的高覆盖率短读数据，而Deep重复在NA12878进行训练。通过DeepRepeat预测str-核苷酸的全基因组性能。“重复计数Dif”：Deep重复预测的计数减去HipSTR预测的相应计数。这表明，Deep Repeat在纳米孔数据上推断的大多数重复计数与从高覆盖率短读数据中估计的重复计数相似。

图3 Deep Repeat在跨基因组数据集上的性能。

为了进一步评估DeepRepeat，作者选择了9个STR位点(fve三核苷酸STR和4个四核苷酸STR)，对NA12878数据集进行Sanger测序，并测试了多个工具的性能，结果如图4所示。

图4 Deep Repeat和其他工具在九个任务上的测量结果

五、结论

在本研究中，作者使用深度卷积神经网络将纳米孔测序数据中的离子信号中检测STR，将STR检测问题转换为图像识别问题，利用了直接相邻的重复单元的自相似性，可以使得重建图像中的特征模式。本文首创性的将重复单元的信号分布转换成彩色图像，然后使用Deep Repeat框架从非重复图像中学习重复图像的模式。经过对真实数据集的广泛测试，DeepRepeat展示了在长读数据集上推断STRs的优秀性能。Deep Repeat与纳米孔信号数据一起提供了一种新的检测STRs的方法，解决了纳米孔数据中固有的STRs高基用错误率和人类基因组低复杂度区域对齐不良的挑战。虽然在部分任务上表现不尽如人意，同时数据集的构建需要耗费时间，但作者认为这依然是一个又去且有启发性的工作。

参考文献 https://doi.org/10.1186/s13059-022-02670-6

成为VIP会员查看完整内容