跳转到内容

多组学整合策略

快速概览

多组学整合不是简单把多个矩阵拼起来,而是要先想清楚数据来源、分析目标和组学特性,再选择合适的整合策略。早期、中期和后期整合各有适用场景,没有万能方案。

  • 整合前必须先明确:数据是否匹配、目标是什么、组学特性差异有多大
  • 早期整合简单但受尺度差异和缺失值限制,后期整合解释清晰但跨组学交互利用不足
  • 现代方法多采用中期整合(先学低维表示再整合),但也要根据具体问题选择
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

多组学整合(Multi-Omics Integration) 是指同时分析来自不同生物学层次的数据(基因组、转录组、表观组、蛋白组、代谢组等),以获得比单一组学更全面的生物学理解。

多组学整合概念图:DNA/RNA/染色质数据经共享潜空间映射到表型、机制与预测
多组学整合概念图:不同组学层次的数据通过共享表示空间实现信息融合
场景类型数据特点典型案例
同一样本多组学相同样本,多个组学层次同一病人的 WGS + RNA-seq + 蛋白组
单细胞多组学同一细胞,同时测多个模态scRNA-seq + scATAC-seq (multiome)
队列级多组学不同样本测不同组学队列 A 测 RNA,队列 B 测甲基化
公共数据整合跨研究、跨平台数据整合 TCGA、GEO 等多个数据库
目标类型具体任务典型输出
预测多组学特征预测表型分类器、风险评分模型
分群识别疾病亚型或细胞状态聚类标签、可视化嵌入
机制解释因果推断与调控关系调控网络、通路富集
特征发现跨组学生物标志物多组学特征列表

单一组学的局限性:

  • 基因组:知道有什么变异,但不知道这些变异如何影响功能;
  • 转录组:知道基因表达变化,但不知道是上游调控还是下游效应;
  • 表观组:知道染色质状态,但不知道哪些转录因子在起作用;
  • 蛋白组/代谢组:知道最终效应,但不知道上游机制。

多组学整合的价值在于:

  • 互补性:不同组学提供不同视角的信息,可以相互验证和补充;
  • 机制链条:从 DNA → RNA → 蛋白 → 表型的完整链条可以揭示因果关系;
  • 提高鲁棒性:多个组学的证据比单一组学更稳定;
  • 发现新机制:跨组学关联可能发现单一组学无法看到的模式。

多组学整合通常要回答:

  • 不同组学之间有哪些一致或冲突的模式?
  • 哪些基因/通路在多个组学层次上都有信号?
  • 如何利用多组学提高预测或分群性能?
  • 不同组学层次之间的因果关系是什么?
  • 多个组学数据矩阵(如基因型矩阵、表达矩阵、甲基化矩阵等);
  • 样本或细胞的匹配信息(哪些样本有哪种组学数据);
  • 样本表型或分组信息;
  • 可选的先验知识(如通路、调控网络)。
  • 整合后的低维表示或特征;
  • 跨组学关联或调控关系;
  • 改进的预测模型或分群结果;
  • 可视化的多组学模式。

思想:直接把不同组学的特征拼接成一个大的特征矩阵,然后送入同一个模型。

优点

  • 实现简单;
  • 模型可以直接看到跨组学交互;
  • 适合组学之间特征维度差异不大的情况。

缺点

  • 不同组学的尺度、分布、噪声模式差异大,直接拼接可能导致某些组学主导模型;
  • 缺失值处理困难(如果某些样本缺少某些组学);
  • 高维灾难(特征维度可能非常大)。

适用场景

  • 组学数量少(2-3 个);
  • 样本在所有组学上都有完整数据;
  • 组学之间的特征维度和尺度相对接近。

中期整合(Intermediate Integration)

Section titled “中期整合(Intermediate Integration)”

思想:先为每种组学学习一个低维表示(如用 PCA、autoencoder、矩阵分解),然后在共享的表示空间中整合。

优点

  • 可以处理不同组学的尺度和维度差异;
  • 可以处理部分缺失的组学数据;
  • 学习到的表示更有生物学可解释性;
  • 现代多组学方法多采用这一思路。

缺点

  • 实现相对复杂;
  • 需要选择合适的降维方法和整合方法;
  • 降维可能丢失一些信息。

适用场景

  • 组学数量较多(3 个以上);
  • 样本在不同组学上有不同程度的缺失;
  • 需要平衡不同组学的贡献。

常见方法

  • MOFA+:多组学因子分析,学习共享和组学特异因子;
  • iCluster:基于联合矩阵分解的整合;
  • Similarity Network Fusion (SNF):构建每个组学的相似性网络,然后融合网络;
  • 深度学习方法:如多组学 autoencoder、VAE 等。

思想:先分别分析每种组学,得到各自的结果(如差异基因、富集通路、预测模型),然后在结果层面整合证据。

优点

  • 每个组学可以用最适合的方法分析;
  • 解释清晰,容易理解每个组学的贡献;
  • 可以灵活地组合不同类型的结果。

缺点

  • 跨组学交互利用不足;
  • 可能在早期就丢失了一些关联信号;
  • 结果整合的规则可能比较主观。

适用场景

  • 不同组学需要完全不同的分析方法;
  • 更关注结果解释而非预测性能;
  • 组学之间关联较弱,各自独立分析更合理。

常见做法

  • 分别做差异分析,然后取交集或 union;
  • 分别做富集分析,然后看哪些通路在多个组学中都显著;
  • 分别训练预测模型,然后集成模型预测结果。
维度 早期整合 中期整合
核心操作 直接拼接特征矩阵 先学低维表示再整合
跨组学交互 模型可直接捕获 在共享空间中捕获
尺度差异 敏感——需仔细归一化 鲁棒——各组学独立编码
缺失数据 困难——拼接需要完整数据 可处理——各组学独立编码
计算复杂度 低(单模型) 中(多编码器+整合)
可解释性 依赖模型类型 较高(潜空间可解释)

研究背景:预测某种癌症患者的 5 年生存期。

数据配置:100 个病人,每个病人具有:

  • WGS:约 400 万个 SNP
  • RNA-seq:约 20,000 个基因表达值
  • 蛋白组:约 5,000 个蛋白丰度

核心挑战

  • 样本量(100)远小于特征维度(400万+2万+5千)
  • 蛋白组存在 15% 缺失值
  • 特征维度差异巨大(WGS 是 RNA-seq 的 200 倍)
  • WGS:每个样本约 400 万个 SNP
  • RNA-seq:每个样本约 20,000 个基因表达值
  • 蛋白组:每个样本约 5,000 个蛋白丰度
  • 目标:预测 5 年生存期(二分类:生存/死亡)
  • 挑战:样本量(100)远小于特征维度(400万+2万+5千)

第一步:评估数据特性

组学样本数特征维度缺失值尺度差异
WGS1004,000,0000%0/1/2(离散)
RNA-seq10020,0005%log2 CPM(连续,范围大)
蛋白组1005,00015%log2 强度(连续)

关键观察

  • 特征维度差异巨大(WGS 是 RNA-seq 的 200 倍)
  • 蛋白组有 15% 缺失值(某些蛋白在部分样本中未检测到)
  • 尺度和分布完全不同(离散 vs 连续)

第二步:评估早期整合的可行性

如果直接拼接:

  • 总特征数:4,025,000
  • 样本/特征比:100/4,025,000 ≈ 1/40,250
  • 问题:严重的高维灾难,模型会过拟合

尝试降维后再拼接:

  • WGS: 4,000,000 → 50 PCA(保留 60% 方差)
  • RNA-seq: 20,000 → 50 PCA(保留 75% 方差)
  • 蛋白组: 5,000 → 50 PCA(保留 80% 方差)
  • 拼接后:150 维特征

问题:WGS 的 PCA 主成分可能主要由群体结构(如 ancestry)驱动,而不是癌症相关的信号,这会引入噪声。

第三步:评估中期整合(MOFA+)

使用 MOFA+ 学习共享和组学特异因子:

  • 输入:三个组学矩阵(各自标准化)
  • 输出:10 个共享因子 + 每个组学 5 个特异因子
  • 总共:25 个因子

优势

  • 自动处理缺失值(蛋白组的 15% 缺失)
  • 平衡不同组学的贡献(不会因为 WGS 维度大就主导)
  • 可以解释哪些因子是共享的、哪些是组学特异的

潜在问题

  • 需要调参(因子数量、稀疏性)
  • 如果组学之间关联很弱,共享因子可能没有意义

第四步:评估后期整合

分别分析:

  • WGS:识别 50 个高频驱动突变
  • RNA-seq:识别 200 个差异表达基因
  • 蛋白组:识别 80 个差异蛋白

整合方式:

  • 取交集:找出在三个层次都变化的基因(假设 15 个)
  • 用这 15 个基因的表达值构建预测模型

优势

  • 生物学解释清晰(每个基因都有明确的跨组学证据)
  • 计算简单,易于实现

问题

  • 可能丢失重要信号(某个基因只在 RNA-seq 层面变化,但功能很重要)
  • 交集可能太小(15 个基因),信息量不足

决策依据

  1. 样本量限制:100 个样本无法支持高维模型,必须降维
  2. 缺失值处理:蛋白组有 15% 缺失,MOFA+ 可以自然处理
  3. 解释性需求:研究需要理解跨组学机制,MOFA+ 提供可解释的因子
  4. 性能优先:预测目标是生存期,MOFA+ 通常比后期整合性能更好
# 伪代码
from mofax import MOFA
# 1. 数据预处理
wgs_data = standardize(wgs_matrix) # 0/1/2 → z-score
rna_data = log_normalize_and_standardize(rna_matrix)
protein_data = log_normalize_and_standardize(protein_matrix)
# 2. 训练 MOFA+ 模型
model = MOFA(
n_factors=25, # 10 共享 + 5 组学特异 × 3
likelihoods=['gaussian', 'gaussian', 'gaussian']
)
model.fit([wgs_data, rna_data, protein_data])
# 3. 提取因子
factors = model.get_factors()
shared_factors = factors[:, :10] # 共享因子
wgs_specific = factors[:, 10:15]
rna_specific = factors[:, 15:20]
protein_specific = factors[:, 20:25]
# 4. 用共享因子预测生存期
X = shared_factors
y = survival_labels
model_survival = RandomForestClassifier()
model_survival.fit(X, y)
  1. 为什么不用早期整合?

    • 特征维度差异太大(400万 vs 2万),直接拼接会导致 WGS 主导
    • 即使降维后拼接,WGS 的 PCA 可能捕捉群体结构而非疾病信号
    • 无法自然处理蛋白组的缺失值
  2. 为什么不用后期整合?

    • 交集可能太小,丢失重要信号
    • 无法利用跨组学协同效应(某些基因在单一组学变化不大,但多组学组合有强信号)
    • 预测性能通常不如中期整合
  3. 为什么选择 MOFA+ 而不是简单的 PCA 拼接?

    • MOFA+ 学习的是共享潜变量,而不是各自独立的 PCA
    • 可以自动处理缺失值
    • 可以区分共享因子和组学特异因子,解释性更好

单用 RNA-seq 做生存期预测:

  • 20,000 个基因 → 降维到 50 PCA
  • 预测性能:AUC = 0.72

用 MOFA+ 整合三组学:

  • 25 个因子
  • 预测性能:AUC = 0.81

提升原因

  • WGS 提供了 DNA 层面的驱动突变信息
  • 蛋白组提供了最终效应层面的信息
  • 跨组学一致性增强了信号的可靠性
场景 推荐选择 原因
样本完全匹配、组学少、特征维度接近 早期整合 实现简单,模型可直接捕获跨组学交互
组学尺度差异大、部分样本有缺失 中期整合(MOFA+/SNF) 各组学独立编码,天然处理尺度和缺失问题
更关注结果解释而非预测性能 后期整合 每个组学独立分析,结果易解释
单细胞多模态数据(如 10x Multiome) 中期整合(WNN/MOFA+) 同一细胞的多模态数据适合在潜空间整合
队列级跨平台数据整合 中期整合 + 批次校正 先处理批次效应,再在共享空间整合

在开始整合前,需要先回答:

  • 样本是否匹配?(同一样本、同一细胞、同一病人?)
  • 时间点是否一致?(不同时间点的数据可能反映不同状态)
  • 技术平台是否可比?(不同批次、不同平台可能有系统偏差)
  • 是预测还是解释?
  • 是分群还是回归?
  • 是否需要因果关系?
  • 不同组学的噪声水平如何?
  • 不同组学的维度差异多大?
  • 缺失模式是什么?(完全随机缺失、还是系统性缺失?)
  • 数据量有多大?
  • 是否需要实时预测?
  • 可用的计算资源如何?

多组学整合不是孤立步骤,它依赖:

  • 数据预处理:每个组学需要独立的质量控制和归一化;
  • 批次校正:不同组学或不同批次之间的系统偏差需要校正;
  • 特征选择:高维组学数据通常需要先降维或特征选择;
  • 验证:整合结果需要在独立数据集上验证。

同时,它也是后续步骤的基础:

  • 为机制研究提供候选基因或通路;
  • 为临床预测提供更鲁棒的模型;
  • 为实验设计提供多组学证据支持。
  • Argelaguet et al., MOFA+: a statistical framework for comprehensive integration of multi-omics data (Nature Methods, 2020)
  • Wang et al., Similarity network fusion for aggregating data types on a genomic scale (Nature Methods, 2014)
  • Chaudhary et al., Deep learning-based multi-omics integration robustly predicts survival in liver cancer (Nature Communications, 2018)