整合算法

快速概览

多组学整合的核心算法：矩阵分解、因子分析与深度学习方法。

问题定义

什么是多组学整合算法

多组学整合算法（Multi-Omics Integration Algorithms） 旨在联合分析来自不同生物学层次的数据，发现跨组学的共享模式与特异信号。

输入与输出

输入：

$K$ 个组学数据矩阵： $X^{(1)}, X^{(2)}, ..., X^{(K)}$
其中 $X^{(k)} \in \mathbb{R}^{n \times p_k}$ 或 $\mathbb{R}^{n_k \times p_k}$ （允许样本不匹配）
可选：样本标签、批次信息、先验知识

输出：

共享的低维表示： $Z \in \mathbb{R}^{r \times n}$ 或样本映射
组学特异分量：各组学独有的变异模式
跨组学关联：特征层面的对应关系

核心挑战

挑战类型	具体问题	算法应对策略
异质性	不同组学的维度、分布、噪声模式差异巨大	标准化、概率建模、深度网络
对齐性	样本是否匹配、细胞是否对应	显式对齐、隐式嵌入匹配
可解释性	识别跨组学驱动因子	稀疏约束、因子标注、网络分析
可扩展性	大规模数据处理	随机优化、分块计算、近似推断

矩阵分解类算法

联合非负矩阵分解（Joint NMF）

基本思想：对多个组学矩阵共享部分因子矩阵，强制它们在低维空间对齐。

给定 $K$ 个组学矩阵 $X^{(1)}, X^{(2)}, ..., X^{(K)}$ ，Joint NMF 优化：

\min_{W, H^{(1)}, ..., H^{(K)}} \sum_{k=1}^{K} \|X^{(k)} - W H^{(k)}\|_F^2 + \lambda \mathcal{R}(W, H)

其中 $W$ 是共享的基矩阵（ $n \times r$ ）， $H^{(k)}$ 是各组学特异的系数矩阵（ $r \times p_k$ ）。

优点：

数学形式清晰，易于解释
非负约束符合生物学直觉
计算效率较高

缺点：

难以处理缺失数据
对初始化敏感
非凸优化可能陷入局部最优

变体：

iNMF：整合单细胞多模态数据
MultiNMF：加入正则项控制组学权重
SNF（Similarity Network Fusion）：构建相似性网络后融合

典型相关分析（CCA）及扩展

基本思想：寻找两组变量的线性组合，使它们之间的相关性最大化。

对两组数据 $X \in \mathbb{R}^{n \times p}$ 和 $Y \in \mathbb{R}^{n \times q}$ ，求解：

\max_{u, v} u^T X^T Y v \quad \text{s.t.} \quad u^T X^T X u = 1, v^T Y^T Y v = 1

扩展方法：

Sparse CCA：加入 L1 正则实现特征选择
Kernel CCA：通过核函数处理非线性关系
Group CCA：扩展到多组学（>2 组）
Deep CCA：使用深度网络学习非线性映射

优点：

理论基础扎实
直接优化跨组学相关性
可扩展到多组学场景

缺点：

线性 CCA 难以捕捉复杂非线性关系
对噪声敏感
样本量要求较高

因子分析类算法

MOFA+（Multi-Omics Factor Analysis）

核心思想：假设观测到的多组学数据由一组共享的潜在因子驱动，每组学对这些因子有不同的敏感度。

模型结构：

X^{(k)} = W^{(k)} Z + \epsilon^{(k)}, \quad \epsilon^{(k)} \sim \mathcal{N}(0, \tau^{(k)})

其中：

$Z \in \mathbb{R}^{r \times n}$ 是共享潜在因子
$W^{(k)}$ 是组学 $k$ 的因子载荷矩阵
$\tau^{(k)}$ 是组学 $k$ 的噪声参数

推断方法：使用变分推断近似后验分布

优点：

可处理缺失数据
提供不确定性估计
可解释性强（因子可标注为生物学过程）
支持视图权重自动学习

缺点：

假设因子服从正态分布
计算复杂度随样本量增长
需要选择因子数量

变分自编码器（VAE）类方法

代表方法：

scVI / totalVI / MultiVI：单细胞多模态整合
MOFA+ 的 VAE 版本：更灵活的分布假设

基本架构：

编码器：将观测数据映射到潜在空间
潜在变量：学习共享表示
解码器：从潜在空间重构各组学数据

优点：

可处理非线性关系
灵活的分布假设
可扩展到大规模数据
可整合批次信息

缺点：

训练不稳定
超参数敏感
可解释性较弱

图方法

相似性网络融合（SNF）

基本流程：

为每组学构建样本相似性网络
迭代融合网络： $P^{(k)} \leftarrow S^{(k)} \times \left(\frac{\sum_{l \neq k} P^{(l)}}{K-1}\right) \times (S^{(k)})^T$
融合后的网络用于下游分析（聚类、可视化）

优点：

不假设数据分布
可处理不同类型的数据
算法简单直观

缺点：

相似性度量选择影响结果
难以处理缺失数据
计算复杂度 $O(n^2)$

图神经网络（GNN）方法

基本思想：将样本作为节点，组学信息作为节点特征，通过消息传递学习整合表示。

代表方法：

scMoGNN：单细胞多组学图神经网络
MOMA：多组学图注意力网络

优点：

可捕捉复杂的样本间关系
可整合先验知识（如蛋白质相互作用）
端到端学习

缺点：

需要构建合理的图结构
计算开销大
可解释性挑战

深度学习方法

多模态自编码器

架构类型：

早期融合自编码器：输入拼接后编码
多编码器-解码器：各模态独立编码，在瓶颈层融合
对比学习：学习跨模态对齐的表示

损失函数：

重构损失： $\sum_k \|X^{(k)} - \hat{X}^{(k)}\|^2$
对比损失：拉近正样本对，推开负样本对
正则项：鼓励稀疏或低维表示

Transformer 架构

应用场景：

单细胞多模态：scJoint、scMoMaT
时空组学整合：SpaGCN、STAGATE

优势：

注意力机制捕捉长程依赖
可处理可变长度输入
预训练-微调范式

算法选择指南

场景	推荐算法	理由
小样本、可解释性要求高	Joint NMF, MOFA+	计算快，因子可解释
缺失数据较多	MOFA+, scVI	可处理缺失值
非线性关系复杂	VAE, GNN, Transformer	捕捉复杂模式
大规模数据	scVI, Linear CCA	可扩展性好
需要不确定性估计	MOFA+, scVI	贝叶斯框架
单细胞多模态	scVI, totalVI, MultiVI	专为单细胞设计

实现注意事项

数据预处理

标准化：每组学独立标准化（z-score 或 min-max）
特征选择：保留高变异特征或生物学相关特征
缺失值处理：根据算法选择填零、均值或模型推断

超参数选择

潜在维度：使用肘部法则、解释方差或下游任务性能
正则强度：交叉验证或信息准则（AIC/BIC）
学习率：深度学习方法需要调优

评估指标

重构误差：衡量信息保留
跨模态一致性：如标签一致性、相关性
下游任务性能：分类、聚类、差异表达
可解释性：因子与已知生物学通路的重叠