基因网络在理解控制细胞活动和生物行为的基本机制中具有重要意义。由于真实的基因相互作用是不可观察的,人们通常借助可观察的基因表达数据来统计推断基因网络。在这篇论文中,我们讨论了统计基因网络中的巨大挑战,包括:1)基因网络估计的基准工具 2)非线性基因网络估计方法 3)在自闭症相关基因理解中的基因网络应用。
在第二章中,我们讨论了基因共表达估计中的基准填充方法。我们开发了一个新的模拟工具,可以真实模拟均质细胞群、异质细胞群,以及复杂的细胞群关系如树和轨迹结构,再加上基因共表达结构。我们通过评估基因表达去噪方法对下游基因共表达估计的影响来展示我们工具的实用性。在第三章中,我们讨论了当前基因共表达估计方法捕获非线性关系的局限性。我们展示,平均一个种群中特定细胞的基因共表达给出了一个新的依赖度量,可以检测任何非线性、非单调和非全局的关系。我们正式建立了一致性和稳健性,并证明其在大家族的依赖度量中的优势。在第四章中,我们探讨了在识别与自闭症谱系障碍(ASD)相关的活跃基因的案例研究中,各种类型的基因网络的应用。为了进行系统的研究,我们还开发了一个新的基因组交互度量,该度量扩展了一个现有的观点,该观点解决了当真实基因组未知到非线性设置的挑战。使用统一的网络辅助基因风险建模,我们发现某些类型的基因网络对我们的任务明显更有用:它们帮助识别了一系列在生物学上有趣的独特的“活跃”和“反应”基因社区。