跳转到内容

整合算法

快速概览

多组学整合的核心算法:矩阵分解、因子分析与深度学习方法。

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

多组学整合算法(Multi-Omics Integration Algorithms) 旨在联合分析来自不同生物学层次的数据,发现跨组学的共享模式与特异信号。

输入

  • KK 个组学数据矩阵:X(1),X(2),...,X(K)X^{(1)}, X^{(2)}, ..., X^{(K)}
  • 其中 X(k)Rn×pkX^{(k)} \in \mathbb{R}^{n \times p_k}Rnk×pk\mathbb{R}^{n_k \times p_k}(允许样本不匹配)
  • 可选:样本标签、批次信息、先验知识

输出

  • 共享的低维表示:ZRr×nZ \in \mathbb{R}^{r \times n} 或样本映射
  • 组学特异分量:各组学独有的变异模式
  • 跨组学关联:特征层面的对应关系
挑战类型具体问题算法应对策略
异质性不同组学的维度、分布、噪声模式差异巨大标准化、概率建模、深度网络
对齐性样本是否匹配、细胞是否对应显式对齐、隐式嵌入匹配
可解释性识别跨组学驱动因子稀疏约束、因子标注、网络分析
可扩展性大规模数据处理随机优化、分块计算、近似推断

基本思想:对多个组学矩阵共享部分因子矩阵,强制它们在低维空间对齐。

给定 KK 个组学矩阵 X(1),X(2),...,X(K)X^{(1)}, X^{(2)}, ..., X^{(K)},Joint NMF 优化:

minW,H(1),...,H(K)k=1KX(k)WH(k)F2+λR(W,H)\min_{W, H^{(1)}, ..., H^{(K)}} \sum_{k=1}^{K} \|X^{(k)} - W H^{(k)}\|_F^2 + \lambda \mathcal{R}(W, H)

其中 WW 是共享的基矩阵(n×rn \times r),H(k)H^{(k)} 是各组学特异的系数矩阵(r×pkr \times p_k)。

优点

  • 数学形式清晰,易于解释
  • 非负约束符合生物学直觉
  • 计算效率较高

缺点

  • 难以处理缺失数据
  • 对初始化敏感
  • 非凸优化可能陷入局部最优

变体

  • iNMF:整合单细胞多模态数据
  • MultiNMF:加入正则项控制组学权重
  • SNF(Similarity Network Fusion):构建相似性网络后融合

基本思想:寻找两组变量的线性组合,使它们之间的相关性最大化。

对两组数据 XRn×pX \in \mathbb{R}^{n \times p}YRn×qY \in \mathbb{R}^{n \times q},求解:

maxu,vuTXTYvs.t.uTXTXu=1,vTYTYv=1\max_{u, v} u^T X^T Y v \quad \text{s.t.} \quad u^T X^T X u = 1, v^T Y^T Y v = 1

扩展方法

  • Sparse CCA:加入 L1 正则实现特征选择
  • Kernel CCA:通过核函数处理非线性关系
  • Group CCA:扩展到多组学(>2 组)
  • Deep CCA:使用深度网络学习非线性映射

优点

  • 理论基础扎实
  • 直接优化跨组学相关性
  • 可扩展到多组学场景

缺点

  • 线性 CCA 难以捕捉复杂非线性关系
  • 对噪声敏感
  • 样本量要求较高

核心思想:假设观测到的多组学数据由一组共享的潜在因子驱动,每组学对这些因子有不同的敏感度。

模型结构:

X(k)=W(k)Z+ϵ(k),ϵ(k)N(0,τ(k))X^{(k)} = W^{(k)} Z + \epsilon^{(k)}, \quad \epsilon^{(k)} \sim \mathcal{N}(0, \tau^{(k)})

其中:

  • ZRr×nZ \in \mathbb{R}^{r \times n} 是共享潜在因子
  • W(k)W^{(k)} 是组学 kk 的因子载荷矩阵
  • τ(k)\tau^{(k)} 是组学 kk 的噪声参数

推断方法:使用变分推断近似后验分布

优点

  • 可处理缺失数据
  • 提供不确定性估计
  • 可解释性强(因子可标注为生物学过程)
  • 支持视图权重自动学习

缺点

  • 假设因子服从正态分布
  • 计算复杂度随样本量增长
  • 需要选择因子数量

代表方法

  • scVI / totalVI / MultiVI:单细胞多模态整合
  • MOFA+ 的 VAE 版本:更灵活的分布假设

基本架构

  1. 编码器:将观测数据映射到潜在空间
  2. 潜在变量:学习共享表示
  3. 解码器:从潜在空间重构各组学数据

优点

  • 可处理非线性关系
  • 灵活的分布假设
  • 可扩展到大规模数据
  • 可整合批次信息

缺点

  • 训练不稳定
  • 超参数敏感
  • 可解释性较弱

基本流程

  1. 为每组学构建样本相似性网络
  2. 迭代融合网络: P(k)S(k)×(lkP(l)K1)×(S(k))TP^{(k)} \leftarrow S^{(k)} \times \left(\frac{\sum_{l \neq k} P^{(l)}}{K-1}\right) \times (S^{(k)})^T
  3. 融合后的网络用于下游分析(聚类、可视化)

优点

  • 不假设数据分布
  • 可处理不同类型的数据
  • 算法简单直观

缺点

  • 相似性度量选择影响结果
  • 难以处理缺失数据
  • 计算复杂度 O(n2)O(n^2)

基本思想:将样本作为节点,组学信息作为节点特征,通过消息传递学习整合表示。

代表方法

  • scMoGNN:单细胞多组学图神经网络
  • MOMA:多组学图注意力网络

优点

  • 可捕捉复杂的样本间关系
  • 可整合先验知识(如蛋白质相互作用)
  • 端到端学习

缺点

  • 需要构建合理的图结构
  • 计算开销大
  • 可解释性挑战

架构类型

  1. 早期融合自编码器:输入拼接后编码
  2. 多编码器-解码器:各模态独立编码,在瓶颈层融合
  3. 对比学习:学习跨模态对齐的表示

损失函数

  • 重构损失:kX(k)X^(k)2\sum_k \|X^{(k)} - \hat{X}^{(k)}\|^2
  • 对比损失:拉近正样本对,推开负样本对
  • 正则项:鼓励稀疏或低维表示

应用场景

  • 单细胞多模态:scJoint、scMoMaT
  • 时空组学整合:SpaGCN、STAGATE

优势

  • 注意力机制捕捉长程依赖
  • 可处理可变长度输入
  • 预训练-微调范式
场景推荐算法理由
小样本、可解释性要求高Joint NMF, MOFA+计算快,因子可解释
缺失数据较多MOFA+, scVI可处理缺失值
非线性关系复杂VAE, GNN, Transformer捕捉复杂模式
大规模数据scVI, Linear CCA可扩展性好
需要不确定性估计MOFA+, scVI贝叶斯框架
单细胞多模态scVI, totalVI, MultiVI专为单细胞设计
  • 标准化:每组学独立标准化(z-score 或 min-max)
  • 特征选择:保留高变异特征或生物学相关特征
  • 缺失值处理:根据算法选择填零、均值或模型推断
  • 潜在维度:使用肘部法则、解释方差或下游任务性能
  • 正则强度:交叉验证或信息准则(AIC/BIC)
  • 学习率:深度学习方法需要调优
  • 重构误差:衡量信息保留
  • 跨模态一致性:如标签一致性、相关性
  • 下游任务性能:分类、聚类、差异表达
  • 可解释性:因子与已知生物学通路的重叠