多组学整合
多组学整合(Multi-Omics Integration)旨在联合分析来自不同生物学层次的数据(基因组、转录组、蛋白质组、表观组等),建立比单一组学更完整的生物学解释。
本章涵盖多组学整合的完整流程:
数据层 → 策略层 → 算法层 → 应用层 ↓ ↓ ↓ ↓多组学数据 → 整合策略 → 核心算法 → 生物学发现 ↓ ↓ ↓ ↓批次校正 早/中/晚期 矩阵分解 疾病分型单细胞多模态 整合方案 深度网络 机制推断为什么需要多组学整合
Section titled “为什么需要多组学整合”单一组学的局限性
Section titled “单一组学的局限性”| 组学层次 | 信息内容 | 局限性 |
|---|---|---|
| 基因组(DNA) | 遗传变异、序列信息 | 无法直接反映功能状态 |
| 转录组(RNA) | 基因表达水平 | 不能区分原因与结果 |
| 蛋白质组 | 最终功能执行者 | 受转录后调控影响 |
| 表观组 | 调控状态 | 需要结合表达验证功能 |
互补性:不同组学提供互补视角,相互验证和补充。
因果链条:从 DNA → RNA → 蛋白 → 表型建立完整的调控链条。
鲁棒性:多组学证据比单一组学更稳定可靠。
新发现:跨组学关联可能揭示单一组学无法看到的模式。
路径一:概念入门(推荐)
Section titled “路径一:概念入门(推荐)”- 整合策略 — 理解早期/中期/后期整合的基本思想
- 批次效应与数据协调 — 学习批次效应识别与校正
- 单细胞 multiome — 了解同一细胞的多模态分析
路径二:算法深入
Section titled “路径二:算法深入”- 整合算法概览 — 掌握矩阵分解、因子分析与深度学习方法
- 联合 NMF — 学习共享基矩阵的矩阵分解
- 典型相关分析 — 理解最大化跨组学相关性的方法
- MOFA+ — 掌握贝叶斯因子分析框架
- 相似性网络融合 — 了解基于网络的多组学整合
本章核心问题
Section titled “本章核心问题”多组学整合需要回答的关键问题:
- 整合时机:早期、中期还是后期整合?
- 对齐策略:如何处理样本不匹配、批次效应?
- 方法选择:矩阵分解、概率模型还是深度网络?
- 结果评估:如何验证整合后的生物学发现?
整合策略
理解早期整合、中期整合和后期整合等常见思路。
进入子主题批次效应与 harmonization
理解技术差异、批次校正与整合评估。
进入子主题单细胞 multiome
理解同一细胞中联合测 RNA 与 ATAC 等多模态数据。
进入子主题整合算法
矩阵分解、图方法与深度学习等多组学整合核心算法。
进入子主题以下页面提供多组学整合核心算法的详细教材式讲解:
- 联合非负矩阵分解(Joint NMF):通过共享基矩阵实现多组学数据的低维对齐
- 典型相关分析(CCA):寻找两组变量间的最大相关性
- MOFA+:基于贝叶斯因子分析的多组学整合方法,可处理缺失数据
- 相似性网络融合(SNF):通过迭代融合多组学相似性网络