跳转到内容

批次效应与数据协调

快速概览

多组学与单细胞数据中的批次效应识别、校正方法与数据协调(harmonization)评估。

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

批次效应(Batch Effect) 指由于技术因素而非生物学因素导致的系统差异。这些因素包括:

  • 实验平台差异:不同测序仪、芯片或质谱仪
  • 操作批次差异:不同日期、不同操作人员
  • 试剂差异:不同批号试剂、不同文库制备方案
  • 处理条件差异:温度、时间等实验条件波动

设观测数据 XRn×pX \in \mathbb{R}^{n \times p} 由两部分组成:

X=B+S+ϵX = B + S + \epsilon

其中:

  • BB 为批次效应(技术变异)
  • SS 为真实生物学信号
  • ϵ\epsilon 为随机噪声

批次校正的目标是估计并去除 BB,同时保留 SS

多组学整合最易失败的环节往往不是模型复杂度不足,而是批次效应掩盖了真实的生物学信号。具体表现为:

问题类型具体表现后果
平台差异不同测序平台的数据分布不同样本按平台聚类而非按生物学状态聚类
时间批次不同日期处理的样本呈现系统偏移假阳性差异信号
操作差异不同技术人员引入的系统性偏差技术伪迹被误认为生物学信号

数据协调(Data Harmonization)旨在实现以下三个目标:

确保同一生物学群体内的样本不因技术批次而聚类分离。

不同细胞类型、疾病状态等生物学差异应保持可分辨。

不应将真实的生物学信号误判为批次效应而消除。

这三个目标之间存在内在张力:

  • 过度追求批次消除 \rightarrow 可能抹去生物学差异
  • 过度保留生物学差异 \rightarrow 可能残留批次效应
  • 校正不足或过度 \rightarrow 下游分析均受影响

ComBat(Empirical Bayes framework)

假设批次效应可用线性模型描述:

Yijg=αg+Xijβg+γig+δigY~ijg+ϵijgY_{ijg} = \alpha_g + X_{ij}\beta_g + \gamma_{ig} + \delta_{ig}\tilde{Y}_{ijg} + \epsilon_{ijg}

其中:

  • γig\gamma_{ig}:批次 ii 对基因 gg 的加性效应
  • δig\delta_{ig}:批次 ii 对基因 gg 的乘性效应
  • Y~ijg\tilde{Y}_{ijg}:标准化后的表达值

Harmony

在高维嵌入空间迭代修正批次效应:

  1. 初始降维(PCA)
  2. 软聚类:估计细胞属于各群体的概率
  3. 线性校正:在每个群体内部校正批次效应
  4. 迭代至收敛

相互最近邻(MNN, Mutual Nearest Neighbors)

假设不同批次间存在共享的生物学群体:

  1. 在各批次间识别相互最近邻对
  2. 计算批次间的”校正向量”
  3. 应用校正向量对齐批次

scVI / totalVI / MultiVI

使用变分自编码器同时建模:

  • 共享的潜在生物学状态 zz
  • 批次特异的噪声参数
  • 组学特异的生成过程

MOFA+

明确分离共享因子与批次特异因子:

X(k)=W(k)Z+Wbatch(k)Zbatch+ϵ(k)X^{(k)} = W^{(k)} Z + W_{\text{batch}}^{(k)} Z_{\text{batch}} + \epsilon^{(k)}

通过贝叶斯推断自动学习各因子的重要性。

有效的数据协调评估需从多个维度进行:

维度指标评估目标
批次去除kBET、批次熵样本是否按批次聚类
生物学保留细胞类型纯度、 silhouette score生物学标签是否可分辨
下游任务差异表达一致性、轨迹连续性下游分析是否合理
过校正检测细胞类型混合度、伪时间偏移是否过度混合不同群体

批次效应检测

  • kBET(k-nearest neighbor Batch Effect Test):检验近邻中批次分布是否均匀
  • 批次熵(Batch Entropy):衡量局部邻域的批次多样性

生物学保留

  • 细胞类型纯度(Cell Type Purity):校正后同簇内细胞类型一致性
  • Silhouette Width:衡量簇内紧凑性与簇间分离度

过校正检测

  • 细胞类型混合指数(Cell Type Mixing Index)
  • 伪时间相关性(Pseudotime Correlation)
场景推荐方法理由
已知批次标签,样本量中等ComBat、Harmony计算高效,校正效果稳定
单细胞多组学整合scVI、totalVI、MultiVI专为单细胞设计,可处理多模态
需要不确定性估计MOFA+贝叶斯框架,提供后验分布
批次-生物学耦合MNN不依赖批次标签,基于共享群体
大规模数据Harmony、scVI可扩展性好