Analysis of single-cell RNA sequencing data is often conducted through network projections such as coexpression networks, primarily due to the abundant availability of network analysis tools for downstream tasks. However, this approach has several limitations: loss of higher-order information, inefficient data representation caused by converting a sparse dataset to a fully connected network, and overestimation of coexpression due to zero-inflation. To address these limitations, we propose conceptualizing scRNA-seq expression data as hypergraphs, which are generalized graphs in which the hyperedges can connect more than two vertices. In the context of scRNA-seq data, the hypergraph nodes represent cells and the edges represent genes. Each hyperedge connects all cells where its corresponding gene is actively expressed and records the expression of the gene across different cells. This hypergraph conceptualization enables us to explore multi-way relationships beyond the pairwise interactions in coexpression networks without loss of information. We propose two novel clustering methods: (1) the Dual-Importance Preference Hypergraph Walk (DIPHW) and (2) the Coexpression and Memory-Integrated Dual-Importance Preference Hypergraph Walk (CoMem-DIPHW). They outperform established methods on both simulated and real scRNA-seq datasets. The improvement brought by our proposed methods is especially significant when data modularity is weak. Furthermore, CoMem-DIPHW incorporates the gene coexpression network, cell coexpression network, and the cell-gene expression hypergraph from the single-cell abundance counts data altogether for embedding computation. This approach accounts for both the local level information from single-cell level gene expression and the global level information from the pairwise similarity in the two coexpression networks.


翻译:单细胞RNA测序数据分析通常通过共表达网络等网络投影进行,这主要得益于下游任务中网络分析工具的丰富性。然而,该方法存在若干局限性:高阶信息丢失、稀疏数据集转换为全连接网络导致的数据表示效率低下,以及零膨胀引起的共表达高估。为克服这些限制,我们提出将scRNA-seq表达数据概念化为超图——一种广义图结构,其超边可连接两个以上的顶点。在scRNA-seq数据背景下,超图节点代表细胞,边代表基因。每条超边连接其对应基因活跃表达的所有细胞,并记录该基因在不同细胞中的表达水平。这种超图概念化使我们能够探索超越共表达网络中成对相互作用的多维关系,且无需损失信息。我们提出两种新颖的聚类方法:(1)双重重要性偏好超图游走(DIPHW),以及(2)共表达与记忆融合的双重重要性偏好超图游走(CoMem-DIPHW)。这两种方法在模拟和真实scRNA-seq数据集上均优于现有方法。当数据模块性较弱时,我们提出方法的改进效果尤为显著。此外,CoMem-DIPHW将基因共表达网络、细胞共表达网络以及单细胞丰度计数数据中的细胞-基因表达超图共同纳入嵌入计算。该方法同时考虑了单细胞水平基因表达的局部信息与两个共表达网络中成对相似性的全局信息。

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员