多组学整合策略
多组学整合不是简单把多个矩阵拼起来,而是要先想清楚数据来源、分析目标和组学特性,再选择合适的整合策略。早期、中期和后期整合各有适用场景,没有万能方案。
- 整合前必须先明确:数据是否匹配、目标是什么、组学特性差异有多大
- 早期整合简单但受尺度差异和缺失值限制,后期整合解释清晰但跨组学交互利用不足
- 现代方法多采用中期整合(先学低维表示再整合),但也要根据具体问题选择
什么是多组学整合
Section titled “什么是多组学整合”多组学整合(Multi-Omics Integration) 是指同时分析来自不同生物学层次的数据(基因组、转录组、表观组、蛋白组、代谢组等),以获得比单一组学更全面的生物学理解。
整合场景分类
Section titled “整合场景分类”| 场景类型 | 数据特点 | 典型案例 |
|---|---|---|
| 同一样本多组学 | 相同样本,多个组学层次 | 同一病人的 WGS + RNA-seq + 蛋白组 |
| 单细胞多组学 | 同一细胞,同时测多个模态 | scRNA-seq + scATAC-seq (multiome) |
| 队列级多组学 | 不同样本测不同组学 | 队列 A 测 RNA,队列 B 测甲基化 |
| 公共数据整合 | 跨研究、跨平台数据 | 整合 TCGA、GEO 等多个数据库 |
| 目标类型 | 具体任务 | 典型输出 |
|---|---|---|
| 预测 | 多组学特征预测表型 | 分类器、风险评分模型 |
| 分群 | 识别疾病亚型或细胞状态 | 聚类标签、可视化嵌入 |
| 机制解释 | 因果推断与调控关系 | 调控网络、通路富集 |
| 特征发现 | 跨组学生物标志物 | 多组学特征列表 |
单一组学的局限性:
- 基因组:知道有什么变异,但不知道这些变异如何影响功能;
- 转录组:知道基因表达变化,但不知道是上游调控还是下游效应;
- 表观组:知道染色质状态,但不知道哪些转录因子在起作用;
- 蛋白组/代谢组:知道最终效应,但不知道上游机制。
多组学整合的价值在于:
- 互补性:不同组学提供不同视角的信息,可以相互验证和补充;
- 机制链条:从 DNA → RNA → 蛋白 → 表型的完整链条可以揭示因果关系;
- 提高鲁棒性:多个组学的证据比单一组学更稳定;
- 发现新机制:跨组学关联可能发现单一组学无法看到的模式。
多组学整合通常要回答:
- 不同组学之间有哪些一致或冲突的模式?
- 哪些基因/通路在多个组学层次上都有信号?
- 如何利用多组学提高预测或分群性能?
- 不同组学层次之间的因果关系是什么?
- 多个组学数据矩阵(如基因型矩阵、表达矩阵、甲基化矩阵等);
- 样本或细胞的匹配信息(哪些样本有哪种组学数据);
- 样本表型或分组信息;
- 可选的先验知识(如通路、调控网络)。
- 整合后的低维表示或特征;
- 跨组学关联或调控关系;
- 改进的预测模型或分群结果;
- 可视化的多组学模式。
核心整合策略
Section titled “核心整合策略”早期整合(Early Integration)
Section titled “早期整合(Early Integration)”思想:直接把不同组学的特征拼接成一个大的特征矩阵,然后送入同一个模型。
优点:
- 实现简单;
- 模型可以直接看到跨组学交互;
- 适合组学之间特征维度差异不大的情况。
缺点:
- 不同组学的尺度、分布、噪声模式差异大,直接拼接可能导致某些组学主导模型;
- 缺失值处理困难(如果某些样本缺少某些组学);
- 高维灾难(特征维度可能非常大)。
适用场景:
- 组学数量少(2-3 个);
- 样本在所有组学上都有完整数据;
- 组学之间的特征维度和尺度相对接近。
中期整合(Intermediate Integration)
Section titled “中期整合(Intermediate Integration)”思想:先为每种组学学习一个低维表示(如用 PCA、autoencoder、矩阵分解),然后在共享的表示空间中整合。
优点:
- 可以处理不同组学的尺度和维度差异;
- 可以处理部分缺失的组学数据;
- 学习到的表示更有生物学可解释性;
- 现代多组学方法多采用这一思路。
缺点:
- 实现相对复杂;
- 需要选择合适的降维方法和整合方法;
- 降维可能丢失一些信息。
适用场景:
- 组学数量较多(3 个以上);
- 样本在不同组学上有不同程度的缺失;
- 需要平衡不同组学的贡献。
常见方法:
- MOFA+:多组学因子分析,学习共享和组学特异因子;
- iCluster:基于联合矩阵分解的整合;
- Similarity Network Fusion (SNF):构建每个组学的相似性网络,然后融合网络;
- 深度学习方法:如多组学 autoencoder、VAE 等。
后期整合(Late Integration)
Section titled “后期整合(Late Integration)”思想:先分别分析每种组学,得到各自的结果(如差异基因、富集通路、预测模型),然后在结果层面整合证据。
优点:
- 每个组学可以用最适合的方法分析;
- 解释清晰,容易理解每个组学的贡献;
- 可以灵活地组合不同类型的结果。
缺点:
- 跨组学交互利用不足;
- 可能在早期就丢失了一些关联信号;
- 结果整合的规则可能比较主观。
适用场景:
- 不同组学需要完全不同的分析方法;
- 更关注结果解释而非预测性能;
- 组学之间关联较弱,各自独立分析更合理。
常见做法:
- 分别做差异分析,然后取交集或 union;
- 分别做富集分析,然后看哪些通路在多个组学中都显著;
- 分别训练预测模型,然后集成模型预测结果。
| 维度 | 早期整合 | 中期整合 |
|---|---|---|
| 核心操作 | 直接拼接特征矩阵 | 先学低维表示再整合 |
| 跨组学交互 | 模型可直接捕获 | 在共享空间中捕获 |
| 尺度差异 | 敏感——需仔细归一化 | 鲁棒——各组学独立编码 |
| 缺失数据 | 困难——拼接需要完整数据 | 可处理——各组学独立编码 |
| 计算复杂度 | 低(单模型) | 中(多编码器+整合) |
| 可解释性 | 依赖模型类型 | 较高(潜空间可解释) |
研究背景:预测某种癌症患者的 5 年生存期。
数据配置:100 个病人,每个病人具有:
- WGS:约 400 万个 SNP
- RNA-seq:约 20,000 个基因表达值
- 蛋白组:约 5,000 个蛋白丰度
核心挑战:
- 样本量(100)远小于特征维度(400万+2万+5千)
- 蛋白组存在 15% 缺失值
- 特征维度差异巨大(WGS 是 RNA-seq 的 200 倍)
- WGS:每个样本约 400 万个 SNP
- RNA-seq:每个样本约 20,000 个基因表达值
- 蛋白组:每个样本约 5,000 个蛋白丰度
- 目标:预测 5 年生存期(二分类:生存/死亡)
- 挑战:样本量(100)远小于特征维度(400万+2万+5千)
决策链条:选择整合策略
Section titled “决策链条:选择整合策略”第一步:评估数据特性
| 组学 | 样本数 | 特征维度 | 缺失值 | 尺度差异 |
|---|---|---|---|---|
| WGS | 100 | 4,000,000 | 0% | 0/1/2(离散) |
| RNA-seq | 100 | 20,000 | 5% | log2 CPM(连续,范围大) |
| 蛋白组 | 100 | 5,000 | 15% | log2 强度(连续) |
关键观察:
- 特征维度差异巨大(WGS 是 RNA-seq 的 200 倍)
- 蛋白组有 15% 缺失值(某些蛋白在部分样本中未检测到)
- 尺度和分布完全不同(离散 vs 连续)
第二步:评估早期整合的可行性
如果直接拼接:
- 总特征数:4,025,000
- 样本/特征比:100/4,025,000 ≈ 1/40,250
- 问题:严重的高维灾难,模型会过拟合
尝试降维后再拼接:
- WGS: 4,000,000 → 50 PCA(保留 60% 方差)
- RNA-seq: 20,000 → 50 PCA(保留 75% 方差)
- 蛋白组: 5,000 → 50 PCA(保留 80% 方差)
- 拼接后:150 维特征
问题:WGS 的 PCA 主成分可能主要由群体结构(如 ancestry)驱动,而不是癌症相关的信号,这会引入噪声。
第三步:评估中期整合(MOFA+)
使用 MOFA+ 学习共享和组学特异因子:
- 输入:三个组学矩阵(各自标准化)
- 输出:10 个共享因子 + 每个组学 5 个特异因子
- 总共:25 个因子
优势:
- 自动处理缺失值(蛋白组的 15% 缺失)
- 平衡不同组学的贡献(不会因为 WGS 维度大就主导)
- 可以解释哪些因子是共享的、哪些是组学特异的
潜在问题:
- 需要调参(因子数量、稀疏性)
- 如果组学之间关联很弱,共享因子可能没有意义
第四步:评估后期整合
分别分析:
- WGS:识别 50 个高频驱动突变
- RNA-seq:识别 200 个差异表达基因
- 蛋白组:识别 80 个差异蛋白
整合方式:
- 取交集:找出在三个层次都变化的基因(假设 15 个)
- 用这 15 个基因的表达值构建预测模型
优势:
- 生物学解释清晰(每个基因都有明确的跨组学证据)
- 计算简单,易于实现
问题:
- 可能丢失重要信号(某个基因只在 RNA-seq 层面变化,但功能很重要)
- 交集可能太小(15 个基因),信息量不足
最终选择:中期整合(MOFA+)
Section titled “最终选择:中期整合(MOFA+)”决策依据:
- 样本量限制:100 个样本无法支持高维模型,必须降维
- 缺失值处理:蛋白组有 15% 缺失,MOFA+ 可以自然处理
- 解释性需求:研究需要理解跨组学机制,MOFA+ 提供可解释的因子
- 性能优先:预测目标是生存期,MOFA+ 通常比后期整合性能更好
具体实施步骤
Section titled “具体实施步骤”# 伪代码from mofax import MOFA
# 1. 数据预处理wgs_data = standardize(wgs_matrix) # 0/1/2 → z-scorerna_data = log_normalize_and_standardize(rna_matrix)protein_data = log_normalize_and_standardize(protein_matrix)
# 2. 训练 MOFA+ 模型model = MOFA( n_factors=25, # 10 共享 + 5 组学特异 × 3 likelihoods=['gaussian', 'gaussian', 'gaussian'])model.fit([wgs_data, rna_data, protein_data])
# 3. 提取因子factors = model.get_factors()shared_factors = factors[:, :10] # 共享因子wgs_specific = factors[:, 10:15]rna_specific = factors[:, 15:20]protein_specific = factors[:, 20:25]
# 4. 用共享因子预测生存期X = shared_factorsy = survival_labelsmodel_survival = RandomForestClassifier()model_survival.fit(X, y)关键决策点说明
Section titled “关键决策点说明”-
为什么不用早期整合?
- 特征维度差异太大(400万 vs 2万),直接拼接会导致 WGS 主导
- 即使降维后拼接,WGS 的 PCA 可能捕捉群体结构而非疾病信号
- 无法自然处理蛋白组的缺失值
-
为什么不用后期整合?
- 交集可能太小,丢失重要信号
- 无法利用跨组学协同效应(某些基因在单一组学变化不大,但多组学组合有强信号)
- 预测性能通常不如中期整合
-
为什么选择 MOFA+ 而不是简单的 PCA 拼接?
- MOFA+ 学习的是共享潜变量,而不是各自独立的 PCA
- 可以自动处理缺失值
- 可以区分共享因子和组学特异因子,解释性更好
对比:如果只用 RNA-seq
Section titled “对比:如果只用 RNA-seq”单用 RNA-seq 做生存期预测:
- 20,000 个基因 → 降维到 50 PCA
- 预测性能:AUC = 0.72
用 MOFA+ 整合三组学:
- 25 个因子
- 预测性能:AUC = 0.81
提升原因:
- WGS 提供了 DNA 层面的驱动突变信息
- 蛋白组提供了最终效应层面的信息
- 跨组学一致性增强了信号的可靠性
选择策略的关键问题
Section titled “选择策略的关键问题”| 场景 | 推荐选择 | 原因 |
|---|---|---|
| 样本完全匹配、组学少、特征维度接近 | 早期整合 | 实现简单,模型可直接捕获跨组学交互 |
| 组学尺度差异大、部分样本有缺失 | 中期整合(MOFA+/SNF) | 各组学独立编码,天然处理尺度和缺失问题 |
| 更关注结果解释而非预测性能 | 后期整合 | 每个组学独立分析,结果易解释 |
| 单细胞多模态数据(如 10x Multiome) | 中期整合(WNN/MOFA+) | 同一细胞的多模态数据适合在潜空间整合 |
| 队列级跨平台数据整合 | 中期整合 + 批次校正 | 先处理批次效应,再在共享空间整合 |
在开始整合前,需要先回答:
- 样本是否匹配?(同一样本、同一细胞、同一病人?)
- 时间点是否一致?(不同时间点的数据可能反映不同状态)
- 技术平台是否可比?(不同批次、不同平台可能有系统偏差)
- 是预测还是解释?
- 是分群还是回归?
- 是否需要因果关系?
- 不同组学的噪声水平如何?
- 不同组学的维度差异多大?
- 缺失模式是什么?(完全随机缺失、还是系统性缺失?)
- 数据量有多大?
- 是否需要实时预测?
- 可用的计算资源如何?
与真实工作流的连接
Section titled “与真实工作流的连接”多组学整合不是孤立步骤,它依赖:
- 数据预处理:每个组学需要独立的质量控制和归一化;
- 批次校正:不同组学或不同批次之间的系统偏差需要校正;
- 特征选择:高维组学数据通常需要先降维或特征选择;
- 验证:整合结果需要在独立数据集上验证。
同时,它也是后续步骤的基础:
- 为机制研究提供候选基因或通路;
- 为临床预测提供更鲁棒的模型;
- 为实验设计提供多组学证据支持。
- Argelaguet et al., MOFA+: a statistical framework for comprehensive integration of multi-omics data (Nature Methods, 2020)
- Wang et al., Similarity network fusion for aggregating data types on a genomic scale (Nature Methods, 2014)
- Chaudhary et al., Deep learning-based multi-omics integration robustly predicts survival in liver cancer (Nature Communications, 2018)