点击上方“公众号”可以订阅哦!
三维基因组最近几年火爆了!为什么?原因很简单,因为基因组的空间结构太重要了!
从基因转录到DNA的复制和损伤修复等,高等真核生物的核内活动基本上都和基因组的三维空间结构息息相关,所以人们非常急切地想了解他们所关心的物种或细胞在其关注的状态下,基因组的三维空间结构特征是怎样的。传统研究基因组的空间结构可以通过影像学的方法,比如FISH。随着组学技术的逐步发展,基于染色质构象捕获技术(3C)的各种技术变体得到了迅猛的发展,其中比较常见的技术就是Hi-C和ChIA-PET。这些技术也引爆了3D基因组学研究领域。其中,Hi-C是无偏性的全基因组检测染色质相互作用,但是它分辨率相对比较低,测序量要求高。ChIA-PET针对特定的介导蛋白,具有高分辨率、测序量较低的特点,但是技术复杂、对初始的细胞数量要求很高,目前应用没有Hi-C广泛。
由于上述技术复杂度和数据分辨率之间的矛盾,3D基因组学的研究,还难以在类似精准医学人群队列研究中大规模展开,也难以对极少量细胞的样本得到高分辨率的数据。尤其是对于单细胞Hi-C来说,在目前的分辨率水平下,在单个细胞的基因组中是否存在特定的拓扑结构域(TAD)都还存在争议。如果有一种方法,以能够低成本、快速的从极低分辨率Hi-C数据中获得高分辨率的染色质空间结构,就有望解决上述难题。
近日,中国科学院北京基因组研究所的张治华研究员团队及其合作者连续发表了两篇重磅论文,分别利用了低分辨率的Hi-C结合其他的表观组数据去预测高分辨率的TAD和相互作用(loop)的方法,使得在大样本中,快速、低成本获得染色质高精度结构信息成为一种可能。
第一种方法为张治华团队和中国科学院软件研究所李昂生研究员团队合作的成果。该方法基于李昂生团队之前发展的结构信息熵理论,应用低分辨率的Hi-C预测高分辨率TAD。张治华、李昂生团队创造性地把Hi-C数据看作是一个相互连接的网络。基于此,他们开发了称之为deDoc的算法。相关论文于2018年8月15日在线的发表于《自然·通讯》(Nature Communications)期刊上。
deDoc的两个重要特征,使得它显著的区别于当前其他方法。第一,deDoc不需要对数据归一化。也就是说,对于Hi-C数据,deDoc可以直接用原始测序数据。这一特征是非常重要的,因为正确的归一化方法对其他的软件来说十分关键,不恰当的归一化往往会得到糟糕甚至是错误的结果,而且归一化原始数据耗时可观。而对于deDoc来说归一化是完全没有必要的,这使得分析速度大大加快。第二,deDoc的高精度预测能力对数据总量的依赖非常低。测试发现,甚至只要少于1%的Rao et al 2014 的1kb分辨率数据,就可以获得充分好的染色质结构的预测。他们进一步测试了deDoc在单细胞数据中的功效,惊讶的发现,只要把低至十个单细胞Hi-C数据聚合在一起,就可以很清晰的鉴定到类似拓扑结构域的结构。这说明尽管对于单个细胞来说,我们仍然无法确切的知道是否真的存在TAD结构, 但是我们可以肯定的说,这种域结构是非常关键的,以至于只需要少到十个细胞就能够涌现出域结构。这一事实对我们理解染色质结构在细胞群体中的构成是有帮助的。最后,张治华、李昂生团队还发现可以用所谓的一维信息熵去确定任何一套Hi-C的最优分辨率大小,也就是binsize。在传统的方法中,人们是通过控制Hi-C连接矩阵中非零数元素的比例这一主观的方法来确定binsize。而利用信息熵,他们发现使得一维信息熵极小值的binsize,对于数据分析来说是最可靠的。这是第一个定量确定合适Hi-C分辨率的方法。由于deDoc的这两个重要特征,使得deDoc可以成为在大的人群队列以及针对极低量细胞样本进行三维基因组研究的重要工具。
第二种方法是张治华团队开发的CISD_loop方法。deDoc可以识别拓扑结构域,但是对更精细的结构比如染色质之间的相互作用,则需要引入新的方法。真核生物的核小体在基因组上的排布是不均匀的。东南大学的孙啸教授曾经报道过不同的转录因子结合位点附近的核小李排布存在不同的特征。人们很早也就知道蛋白质的结合可以在DNA上形成一种类似于障碍物的效果,使得在进行随机运动的核小体在障碍物附近形成统计上相对比较稳定的排布结构。基于这两个观测,张治华团队猜测染色质的相互作用也可能会形成一种特定稳定的障碍体结构,从而使得周围的核小体排布呈现一种特征性的分布。那么如果能够识别这种特性的分布,就可以去预测染色质的相互作用。
基于这样的想法,张治华团队开发了一个机器学习模型,利用MNase-seq数据来预测高精度的染色体相互作用位点,然后进一步引入低分辨率的HI-C数据来预测高精度的染色质相互作用。他们通过在特定位点进行高精度的3C实验验证了这一构想。通过欠抽样的实验,他们发现,CISD_loop只需要极少量的Hi-C数据,就可以在1kb的精度上预测染色质的相互作用。这使得CISD_loop和deDoc方法类似,可以成为在大的人群队列,以及针对极低量细胞样本进行三维基因组研究的重要工具。目前,张治华团队正致力于改进CISD_loop,以利用更容易获取的ATAC-seq数据更高效的实现类似功能。CISD_loop在2017年底发表在《核酸研究》(Nucleic Acids Research)上。
上述两篇论文的源代码均可通过github下载:
https://github.com/huizhangucas/CISD
https://github.com/yinxc/structural-information-minimisation.
参考论文:
1. Angsheng Li*, Xianchen Yin, Bingxiang Xu, Danyang Wang, Jimin Han, Yi Wei, Yun Deng, Ying Xiong and Zhihua Zhang* (2018) Decoding Topologically Associating Domains with Ultra-low resolution Hi-C Data by Graph Structural Entropy. Nature Communications 2018. Doi:10.1038/s41467-018-05691-7.
2. Hui Zhang, Feifei Li, Yan Jia, Bingxiang Xu, Yiqun Zhang, Xiaoli Li, Zhihua Zhang* (2017) Characteristic arrangement of nucleosomes is predictive of chromatin interactions at kilobase resolution. Nucleic Acids Research V45, 12739 - 12751.
注:投稿请电邮至124239956@qq.com ,合作 或 加入未来产业促进会请加:www13923462501 微信号或者扫描下面二维码:
文章版权归原作者所有。如涉及作品版权问题,请与我们联系,我们将删除内容或协商版权问题!联系QQ:124239956