追剧MIT68974-week5:深度学习在调控基因组学中的应用

会员服务 ·

追剧MIT68974-week5:深度学习在调控基因组学中的应用

2022 年 5 月 30 日 GenomicAI

课程计划20周

MIT6874课程主页：https://mit6874.github.io/

week1: Course Intro, AI, ML

week2: Machine Learning Foundations

week3: CNN

week4:RNNs, LSTM, Transfomer, GNNs

week5: Deep learning in Regulatory genomics[本周视频]

AI在调控组学中应用的课程内容大纲

1 生物学基础：调控构建块

基因调控：Cell diversity, Epigenomics, Regulators(TFs), Motifs, Disease role

Probing gene regulation: TFs/histones: ChIP-seq, Accessibility:DNase/ATAC-seq

2 调控组学和基序发现的传统方法

基于Enrichment-based基序发现:EM算法、Gibbs Sampling

基于实验的方法：PBMs，SELEX. Comparative genomics:Evolutionary conservation

3 卷积神经网络在转录调控中的基础应用

主要想法：pixels<->DNA letters. Patches/filters<->Motifs. Higher<->combinations

学习卷积核<-> Motif discovery. Applying them<-> Motif matches

4 CNNS/RNNs在调控组学中的实际应用：各种架构

DeepBind: learn motifs, use in(shallow) fully-connected layer, mutations impact

DeepSea: Train model directly on mutational impact prediction

Baseet: Multi-task DNase prediction in 164 cell types, reuse/learn motifs

ChromPuter: Multi-task prediction of different TFs, reuse partner motifs

DeepLIFT: Model interpretation based on neuron activation properties

DanQ: Recurrent Neural Network for sequential data analysis

5 讲座：斯坦福Anshul Kundaje，Deep Learning for Reg. Genomics

6 讲座: Avantika Lal, Nvidia, Deep Learning for ATAC/scATAC

文献摘要

[1] A synergistic DNA logic predicts genome-wide chromatin accessibility

于2016年发表在Genome Research杂志，引用次数19次

摘要：增强子和启动子通常出现在以depleted nucleosome contact为特征的accessible chromatin 中；然而，目前尚不清楚accessible chromatin是如何受到控制的。作者证明了对数加法顺式- 作用 DNA 序列特征可以在高空间分辨率下预测染色质的可及性。作者开发了一种新型的高维机器学习模型，协同染色质模型 (SCM)，当使用细胞类型的 DNase-seq 数据进行训练时，它能够预测每个碱基的全基因组染色质可及性的预期read counts单独的 DNA 序列，在跨细胞类型共享的高敏位点具有最高的准确性。作者证实，SCM 使用一种基于 CRISPR 的高效位点特异性 DNA 文库整合方法准确预测了数千个合成 DNA 序列的染色质可及性

[2] Sherwood, RI, et al. “Discovery of directional and nondirectional pioneer transcription factors by modeling DNase profile magnitude and shape” Nat. Biotech 2014.

于2014年发表在nature biotechnology杂志；引用次数413次

摘要：描述了定量蛋白质相互作用 (PIQ)，一种用于对全基因组 DNase I 超敏反应谱的大小和形状进行建模以识别转录因子 (TF) 结合位点的计算方法。通过使用机器学习技术，PIQ 从一个 DNase I 超敏反应分析和测序 (DNase-seq) 实验中确定了超过 700 个 TF 的结合位点，其准确性与染色质免疫沉淀后测序 (ChIP-seq) 相当。

[3] Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning

于2015年发表在nature biotechnology杂志，引用次数为2154

摘要：了解 DNA 和 RNA 结合蛋白的序列特异性对于开发生物系统中的调节过程的发展模型和识别致病变异至关重要。在这里，作者表明可以使用“深度学习”技术从实验数据中确定序列特异性，该技术为模式发现提供了一种可扩展、灵活和统一的计算方法。使用各种实验数据和评估指标，作者发现深度学习优于其他最先进的方法，即使在体外数据训练和体内测试时也是如此。作者将这种方法称为 DeepBind，并构建了一个完全自动化的独立软件工具，每次实验可处理数百万个序列。由 DeepBind 确定的特异性可以很容易地可视化为位置权重矩阵的加权集合或“突变图”，表明突变如何影响特定序列内的结合。

[4] Predicting effects of noncoding variants with deep learning–based sequence model

于2015发表在nature methods杂志，引用次数1528

摘要：识别非编码突变的功能效应是人类遗传学的一个重大挑战。为了从头预测序列的非编码变异效应，作者开发了一个基于深度学习的算法框架deepsea（http://deepsea.princeton.edu/），该框架可以直接从大规模染色质谱数据中学习调控序列code，从而能够预测单核苷酸敏感性序列改变的染色质效应。作者进一步利用这一能力改善功能突变的优先顺序，包括表达数量性状基因座（EQTL）和疾病相关突变。

[5] Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks

于2016年发表在Genome Reasearch杂志，引用次数727

摘要：真核基因表达的复杂语言仍不完全清楚。尽管许多统计上与人类疾病相关的非编码突变具有重要意义，但几乎所有此类突变的机制都未知。在这里，作者使用一种基于高级深度卷积神经网络（CNN）的方法来解决这一挑战。作者引入开源软件包Basset来应用CNN从基因组学数据中学习DNA序列的功能活性。通过DNase-seq在164种细胞类型中绘制了可访问的基因组位点概要，并对Basset进行了训练，证明了比以前的方法更高的预测准确性。对于全基因组关联研究（GWAS）单核苷酸多态性，Basset对变异等位基因之间可及性变化的预测要大得多，这些单核苷酸多态性可能与附近的单核苷酸多态性连锁不平衡有关。通过Basset，研究人员可以在他们感兴趣的细胞类型中执行单一的序列测定，同时了解细胞的染色质可及性code，并注释基因组中的每个突变及其对当前可及性和潜在可及性的影响。因此，Basset提供了一种强大的计算方法来注释和解释非编码基因组。

[6]Machine learning models for analyzing chromatin and RNA structure Data

于2017年发表在ProQuest

摘要：染色质和RNA结构在调节基因表达中起着关键作用。最近开发的用于染色质和RNA结构全基因组探测的实验分析提供了碱基对分辨率的数据。然而，在实际测序深度，数据通常稀疏且有噪声。在本论文中，作者开发了基于强大机器学习技术（深度学习和概率图形模型）的方法，使我们能够充分利用这些高维、稀疏和噪声数据集的丰富性来预测组蛋白修饰和RNA二级结构。

[7]Base-resolution models of transcription-factor binding reveal soft motif syntax

于2021年发表在nature genetics，引用次数117

摘要：转录因子（TF）结合基序的排列（语法）是顺式调节密码的重要组成部分，但目前尚不清楚。作者介绍了一个深度学习模型BPNet，该模型使用DNA序列预测多能性（pluripotency）TFs的base-resolution染色质免疫沉淀（ChIP）-连接结合谱。作者开发了解释工具来学习预测基序的表示，并识别协作TF结合相互作用的sotf syntax rules。引人注目的是，Nanog优先以螺旋周期性结合，TFs通常以定向方式合作，作者使用CRISPR诱导的点突变验证了这一点。作者的模型为揭示基因组数据中顺式调控序列的基序和语法提供了一种强大的通用方法。

[8] DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences

于2016年发表在Nucleic Acid Research杂志，引用次数583

摘要：DNA序列的性质和功能建模是基因组学广泛领域中一项重要但富有挑战性的任务。这项任务对于非编码DNA尤其困难，其中绝大多数在功能方面仍知之甚少。非编码DNA功能的强大预测模型对基础科学和翻译研究都有巨大的益处，因为超过98%的人类基因组是非编码的，93%的疾病相关突变位于这些区域。为了满足这一需求，作者提出了一种新的混合的卷积与双向LSTM框架DanQ，用于从序列中从头预测非编码函数。在DanQ模型中，卷积层捕获调控基序，而递归层捕获基序之间的长期依赖性，以便学习调控“语法”以改进预测。DanQ在多个指标上大大优于其他模型。对于一些常规标记，与相关模型相比，DanQ在精确召回曲线度量下的区域相对改善超过50%。作者已经在github Repository上提供了源代码http://github.com/uci-cbcl/DanQ。