多组学整合策略

快速概览

多组学整合不是简单把多个矩阵拼起来，而是要先想清楚数据来源、分析目标和组学特性，再选择合适的整合策略。早期、中期和后期整合各有适用场景，没有万能方案。

整合前必须先明确：数据是否匹配、目标是什么、组学特性差异有多大
早期整合简单但受尺度差异和缺失值限制，后期整合解释清晰但跨组学交互利用不足
现代方法多采用中期整合（先学低维表示再整合），但也要根据具体问题选择

问题定义

什么是多组学整合

多组学整合（Multi-Omics Integration） 是指同时分析来自不同生物学层次的数据（基因组、转录组、表观组、蛋白组、代谢组等），以获得比单一组学更全面的生物学理解。

多组学整合概念图：DNA/RNA/染色质数据经共享潜空间映射到表型、机制与预测 — 多组学整合概念图：不同组学层次的数据通过共享表示空间实现信息融合

整合场景分类

场景类型	数据特点	典型案例
同一样本多组学	相同样本，多个组学层次	同一病人的 WGS + RNA-seq + 蛋白组
单细胞多组学	同一细胞，同时测多个模态	scRNA-seq + scATAC-seq (multiome)
队列级多组学	不同样本测不同组学	队列 A 测 RNA，队列 B 测甲基化
公共数据整合	跨研究、跨平台数据	整合 TCGA、GEO 等多个数据库

分析目标

目标类型	具体任务	典型输出
预测	多组学特征预测表型	分类器、风险评分模型
分群	识别疾病亚型或细胞状态	聚类标签、可视化嵌入
机制解释	因果推断与调控关系	调控网络、通路富集
特征发现	跨组学生物标志物	多组学特征列表

为什么重要

单一组学的局限性：

基因组：知道有什么变异，但不知道这些变异如何影响功能；
转录组：知道基因表达变化，但不知道是上游调控还是下游效应；
表观组：知道染色质状态，但不知道哪些转录因子在起作用；
蛋白组/代谢组：知道最终效应，但不知道上游机制。

多组学整合的价值在于：

互补性：不同组学提供不同视角的信息，可以相互验证和补充；
机制链条：从 DNA → RNA → 蛋白 → 表型的完整链条可以揭示因果关系；
提高鲁棒性：多个组学的证据比单一组学更稳定；
发现新机制：跨组学关联可能发现单一组学无法看到的模式。

任务目标

多组学整合通常要回答：

不同组学之间有哪些一致或冲突的模式？
哪些基因/通路在多个组学层次上都有信号？
如何利用多组学提高预测或分群性能？
不同组学层次之间的因果关系是什么？

输入输出

输入

多个组学数据矩阵（如基因型矩阵、表达矩阵、甲基化矩阵等）；
样本或细胞的匹配信息（哪些样本有哪种组学数据）；
样本表型或分组信息；
可选的先验知识（如通路、调控网络）。

输出

整合后的低维表示或特征；
跨组学关联或调控关系；
改进的预测模型或分群结果；
可视化的多组学模式。

核心整合策略

早期整合（Early Integration）

思想：直接把不同组学的特征拼接成一个大的特征矩阵，然后送入同一个模型。

优点：

实现简单；
模型可以直接看到跨组学交互；
适合组学之间特征维度差异不大的情况。

缺点：

不同组学的尺度、分布、噪声模式差异大，直接拼接可能导致某些组学主导模型；
缺失值处理困难（如果某些样本缺少某些组学）；
高维灾难（特征维度可能非常大）。

适用场景：

组学数量少（2-3 个）；
样本在所有组学上都有完整数据；
组学之间的特征维度和尺度相对接近。

中期整合（Intermediate Integration）

思想：先为每种组学学习一个低维表示（如用 PCA、autoencoder、矩阵分解），然后在共享的表示空间中整合。

优点：

可以处理不同组学的尺度和维度差异；
可以处理部分缺失的组学数据；
学习到的表示更有生物学可解释性；
现代多组学方法多采用这一思路。

缺点：

实现相对复杂；
需要选择合适的降维方法和整合方法；
降维可能丢失一些信息。

适用场景：

组学数量较多（3 个以上）；
样本在不同组学上有不同程度的缺失；
需要平衡不同组学的贡献。

常见方法：

MOFA+：多组学因子分析，学习共享和组学特异因子；
iCluster：基于联合矩阵分解的整合；
Similarity Network Fusion (SNF)：构建每个组学的相似性网络，然后融合网络；
深度学习方法：如多组学 autoencoder、VAE 等。

后期整合（Late Integration）

思想：先分别分析每种组学，得到各自的结果（如差异基因、富集通路、预测模型），然后在结果层面整合证据。

优点：

每个组学可以用最适合的方法分析；
解释清晰，容易理解每个组学的贡献；
可以灵活地组合不同类型的结果。

缺点：

跨组学交互利用不足；
可能在早期就丢失了一些关联信号；
结果整合的规则可能比较主观。

适用场景：

不同组学需要完全不同的分析方法；
更关注结果解释而非预测性能；
组学之间关联较弱，各自独立分析更合理。

常见做法：

分别做差异分析，然后取交集或 union；
分别做富集分析，然后看哪些通路在多个组学中都显著；
分别训练预测模型，然后集成模型预测结果。

维度	早期整合	中期整合
核心操作	直接拼接特征矩阵	先学低维表示再整合
跨组学交互	模型可直接捕获	在共享空间中捕获
尺度差异	敏感——需仔细归一化	鲁棒——各组学独立编码
缺失数据	困难——拼接需要完整数据	可处理——各组学独立编码
计算复杂度	低（单模型）	中（多编码器+整合）
可解释性	依赖模型类型	较高（潜空间可解释）

案例研究

问题描述

研究背景：预测某种癌症患者的 5 年生存期。

数据配置：100 个病人，每个病人具有：

WGS：约 400 万个 SNP
RNA-seq：约 20,000 个基因表达值
蛋白组：约 5,000 个蛋白丰度

核心挑战：

样本量（100）远小于特征维度（400万+2万+5千）
蛋白组存在 15% 缺失值
特征维度差异巨大（WGS 是 RNA-seq 的 200 倍）

输入信息

WGS：每个样本约 400 万个 SNP
RNA-seq：每个样本约 20,000 个基因表达值
蛋白组：每个样本约 5,000 个蛋白丰度
目标：预测 5 年生存期（二分类：生存/死亡）
挑战：样本量（100）远小于特征维度（400万+2万+5千）

决策链条：选择整合策略

第一步：评估数据特性

组学	样本数	特征维度	缺失值	尺度差异
WGS	100	4,000,000	0%	0/1/2（离散）
RNA-seq	100	20,000	5%	log2 CPM（连续，范围大）
蛋白组	100	5,000	15%	log2 强度（连续）

关键观察：

特征维度差异巨大（WGS 是 RNA-seq 的 200 倍）
蛋白组有 15% 缺失值（某些蛋白在部分样本中未检测到）
尺度和分布完全不同（离散 vs 连续）

第二步：评估早期整合的可行性

如果直接拼接：

总特征数：4,025,000
样本/特征比：100/4,025,000 ≈ 1/40,250
问题：严重的高维灾难，模型会过拟合

尝试降维后再拼接：

WGS: 4,000,000 → 50 PCA（保留 60% 方差）
RNA-seq: 20,000 → 50 PCA（保留 75% 方差）
蛋白组: 5,000 → 50 PCA（保留 80% 方差）
拼接后：150 维特征

问题：WGS 的 PCA 主成分可能主要由群体结构（如 ancestry）驱动，而不是癌症相关的信号，这会引入噪声。

第三步：评估中期整合（MOFA+）

使用 MOFA+ 学习共享和组学特异因子：

输入：三个组学矩阵（各自标准化）
输出：10 个共享因子 + 每个组学 5 个特异因子
总共：25 个因子

优势：

自动处理缺失值（蛋白组的 15% 缺失）
平衡不同组学的贡献（不会因为 WGS 维度大就主导）
可以解释哪些因子是共享的、哪些是组学特异的

潜在问题：

需要调参（因子数量、稀疏性）
如果组学之间关联很弱，共享因子可能没有意义

第四步：评估后期整合

分别分析：

WGS：识别 50 个高频驱动突变
RNA-seq：识别 200 个差异表达基因
蛋白组：识别 80 个差异蛋白

整合方式：

取交集：找出在三个层次都变化的基因（假设 15 个）
用这 15 个基因的表达值构建预测模型

优势：

生物学解释清晰（每个基因都有明确的跨组学证据）
计算简单，易于实现

问题：

可能丢失重要信号（某个基因只在 RNA-seq 层面变化，但功能很重要）
交集可能太小（15 个基因），信息量不足

最终选择：中期整合（MOFA+）

决策依据：

样本量限制：100 个样本无法支持高维模型，必须降维
缺失值处理：蛋白组有 15% 缺失，MOFA+ 可以自然处理
解释性需求：研究需要理解跨组学机制，MOFA+ 提供可解释的因子
性能优先：预测目标是生存期，MOFA+ 通常比后期整合性能更好

具体实施步骤

# 伪代码
from mofax import MOFA

# 1. 数据预处理
wgs_data = standardize(wgs_matrix)  # 0/1/2 → z-score
rna_data = log_normalize_and_standardize(rna_matrix)
protein_data = log_normalize_and_standardize(protein_matrix)

# 2. 训练 MOFA+ 模型
model = MOFA(
    n_factors=25,  # 10 共享 + 5 组学特异 × 3
    likelihoods=['gaussian', 'gaussian', 'gaussian']
)
model.fit([wgs_data, rna_data, protein_data])

# 3. 提取因子
factors = model.get_factors()
shared_factors = factors[:, :10]  # 共享因子
wgs_specific = factors[:, 10:15]
rna_specific = factors[:, 15:20]
protein_specific = factors[:, 20:25]

# 4. 用共享因子预测生存期
X = shared_factors
y = survival_labels
model_survival = RandomForestClassifier()
model_survival.fit(X, y)

关键决策点说明

为什么不用早期整合？
- 特征维度差异太大（400万 vs 2万），直接拼接会导致 WGS 主导
- 即使降维后拼接，WGS 的 PCA 可能捕捉群体结构而非疾病信号
- 无法自然处理蛋白组的缺失值
为什么不用后期整合？
- 交集可能太小，丢失重要信号
- 无法利用跨组学协同效应（某些基因在单一组学变化不大，但多组学组合有强信号）
- 预测性能通常不如中期整合
为什么选择 MOFA+ 而不是简单的 PCA 拼接？
- MOFA+ 学习的是共享潜变量，而不是各自独立的 PCA
- 可以自动处理缺失值
- 可以区分共享因子和组学特异因子，解释性更好

对比：如果只用 RNA-seq

单用 RNA-seq 做生存期预测：

20,000 个基因 → 降维到 50 PCA
预测性能：AUC = 0.72

用 MOFA+ 整合三组学：

25 个因子
预测性能：AUC = 0.81

提升原因：

WGS 提供了 DNA 层面的驱动突变信息
蛋白组提供了最终效应层面的信息
跨组学一致性增强了信号的可靠性

选择策略的关键问题

场景	推荐选择	原因
样本完全匹配、组学少、特征维度接近	早期整合	实现简单，模型可直接捕获跨组学交互
组学尺度差异大、部分样本有缺失	中期整合（MOFA+/SNF）	各组学独立编码，天然处理尺度和缺失问题
更关注结果解释而非预测性能	后期整合	每个组学独立分析，结果易解释
单细胞多模态数据（如 10x Multiome）	中期整合（WNN/MOFA+）	同一细胞的多模态数据适合在潜空间整合
队列级跨平台数据整合	中期整合 + 批次校正	先处理批次效应，再在共享空间整合

在开始整合前，需要先回答：

数据匹配性

样本是否匹配？（同一样本、同一细胞、同一病人？）
时间点是否一致？（不同时间点的数据可能反映不同状态）
技术平台是否可比？（不同批次、不同平台可能有系统偏差）

分析目标

是预测还是解释？
是分群还是回归？
是否需要因果关系？

组学特性

不同组学的噪声水平如何？
不同组学的维度差异多大？
缺失模式是什么？（完全随机缺失、还是系统性缺失？）

计算资源

数据量有多大？
是否需要实时预测？
可用的计算资源如何？

与真实工作流的连接

多组学整合不是孤立步骤，它依赖：

数据预处理：每个组学需要独立的质量控制和归一化；
批次校正：不同组学或不同批次之间的系统偏差需要校正；
特征选择：高维组学数据通常需要先降维或特征选择；
验证：整合结果需要在独立数据集上验证。

同时，它也是后续步骤的基础：

为机制研究提供候选基因或通路；
为临床预测提供更鲁棒的模型；
为实验设计提供多组学证据支持。

参考资料

Argelaguet et al., MOFA+: a statistical framework for comprehensive integration of multi-omics data (Nature Methods, 2020)
Wang et al., Similarity network fusion for aggregating data types on a genomic scale (Nature Methods, 2014)
Chaudhary et al., Deep learning-based multi-omics integration robustly predicts survival in liver cancer (Nature Communications, 2018)

多组学整合策略

问题定义

什么是多组学整合

整合场景分类

分析目标

为什么重要

任务目标

输入输出

输入

输出

核心整合策略

早期整合（Early Integration）

中期整合（Intermediate Integration）

后期整合（Late Integration）

案例研究

问题描述

输入信息

决策链条：选择整合策略

最终选择：中期整合（MOFA+）

具体实施步骤

关键决策点说明

对比：如果只用 RNA-seq

选择策略的关键问题

数据匹配性

分析目标

组学特性

计算资源

与真实工作流的连接

参考资料

批次效应与数据协调

整合算法概览

单细胞 Multiome

单细胞组学