跳转到内容

轨迹推断

快速概览

单细胞测序捕捉的是细胞发育过程中的「瞬间快照」。轨迹推断旨在通过数学建模(如图路径、流形学习)将这些离散的点连接起来,重建细胞状态随时间连续变化的轨迹。

  • 理解伪时间(Pseudotime) 的概念:基于转录组距离而非物理时间
  • 掌握轨迹建模的拓扑结构:线性、分支(Bifurcation)、循环与树状
  • 理解 RNA Velocity 及其在推断细胞"演化方向"中的前瞻性作用
  • 掌握主流工具(Monocle, PAGA, scVelo)的底层算法直觉
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

1. 从快照到过程:伪时间的诞生

Section titled “1. 从快照到过程:伪时间的诞生”

在发育生物学中,细胞的分化是一个连续过程。但在实验中,我们一次性杀死了所有细胞进行测序。

  • 挑战:我们无法追踪同一个细胞随时间的变化。
  • 假设:如果群体中存在处于不同发育阶段的细胞,那么通过计算它们之间的转录组相似性,我们可以将它们排序。
  • 伪时间(Pseudotime):定义为细胞沿发育路径相对于起始点的距离。

传统的聚类分析只能告诉我们”有哪些类型的细胞”,但无法回答”这些细胞是如何从一个状态过渡到另一个状态的”。伪时间分析的核心价值在于:

  • 重建分化路径:从干细胞到成熟细胞的连续状态变化。
  • 识别分支点:细胞命运决定的精确时刻。
  • 发现过渡态:处于两个已知类型之间的中间状态。
  • 量化动态基因:随分化过程表达量发生变化的基因。

输入

  • 基因 ×\times 细胞的表达矩阵 XRG×NX \in \mathbb{R}^{G \times N}
  • 可选:降维后的嵌入(PCA 或扩散映射空间中的细胞坐标)
  • 可选:聚类的先验信息(用于约束或引导轨迹构建)

输出

  • 每个细胞的伪时间值 ti[0,1]t_i \in [0, 1](0 为起点,1 为终点)
  • 轨迹的拓扑结构(线性、分支、树状、循环)
  • 沿伪时间变化的差异表达基因
  • 分支点的位置和对应的基因表达模式

核心约束

  • 伪时间是序数关系,不等于真实的物理时间
  • 轨迹应反映细胞状态的连续变化,而非离散跳变

轨迹推断本质上是在降维后的空间中寻找路径

线性轨迹
最简单的发育过程,如红细胞的成熟。算法寻找一条穿过数据中心的主曲线。
分支轨迹(Bifurcation)
细胞面临命运选择(如干细胞分化为髓系或淋巴系)。算法需要识别图中的分叉点。
PAGA (图抽象)
通过计算 cluster 间的连接强度,在宏观层面构建拓扑结构,比单细胞层面的路径搜索更稳健。

主曲线是线性 PCA 在非线性场景下的推广。给定数据点 {x1,,xN}\{x_1, \ldots, x_N\},主曲线 f(λ)f(\lambda) 是一条通过数据”中间”的光滑曲线,满足自一致性条件:

E[Xλf(X)=λ]=f(λ)\mathbb{E}[X \mid \lambda_f(X) = \lambda] = f(\lambda)

其中 λf(x)\lambda_f(x) 是点 xx 在曲线 ff 上的投影参数。

Monocle 2 使用的 DDRTree 算法通过以下步骤近似主曲线:

  1. 在降维空间中学习一个低维流形嵌入。
  2. 在流形上构建最小生成树(Minimum Spanning Tree)。
  3. 将每个细胞投影到树上,获得伪时间值。

PAGA (Partition-based Graph Abstraction) 在聚类后的 cluster 图上工作,而非单个细胞层面:

  1. 对每个 cluster CiC_i,计算其与相邻 cluster CjC_j 之间的连接强度:
wij={(u,v):uCi,vCj,(u,v)E}CiCjw_{ij} = \frac{|\{(u,v) : u \in C_i, v \in C_j, (u,v) \in E\}|}{\sqrt{|C_i| \cdot |C_j|}}
  1. 基于连接强度构建 cluster 间的拓扑图。
  2. 通过阈值化保留显著的连接,过滤噪音连接。

PAGA 的优势在于对离散化(聚类)的依赖使其对单细胞噪音具有天然的鲁棒性。

拓扑类型典型生物学场景代表工具
线性细胞成熟、分化终末Slingshot, Monocle 2
二分叉二选一的命运决定Monocle 3, Slingshot
多分支树血细胞分化(多谱系)PAGA + Monocle 3
循环细胞周期、昼夜节律Cyclone, scVelo
图/网络可逆的状态转换Palantir

传统的轨迹推断是”回溯式”的,而 RNA Velocity 提供了”预测性”的视角。

  • 未剪接 RNA (Unspliced):刚转录出来的原始信号,包含内含子序列。
  • 已剪接 RNA (Spliced):成熟的信号,内含子已被移除。
  • 逻辑:如果一个基因的未剪接量远高于稳态比例,说明它正在”加速”表达。
  • 结果:通过对数千个基因的速率进行矢量求和,我们可以得到每个细胞在嵌入空间中的”速度矢量”,直接指出它接下来将演化成哪种状态。

scVelo 使用以下转录动力学模型。对于每个基因 gg,其剪接动力学由一对常微分方程描述:

dugdt=αg(t)βgug\frac{du_g}{dt} = \alpha_g(t) - \beta_g \cdot u_g dsgdt=βgugγgsg\frac{ds_g}{dt} = \beta_g \cdot u_g - \gamma_g \cdot s_g

其中:

  • ugu_g 是基因 gg 的未剪接 mRNA 数量
  • sgs_g 是基因 gg 的已剪接 mRNA 数量
  • αg(t)\alpha_g(t) 是转录速率(Transcription Rate)
  • βg\beta_g 是剪接速率(Splicing Rate)
  • γg\gamma_g 是降解速率(Degradation Rate)

在稳态(Steady State)下,dudt=0\frac{du}{dt} = 0dsdt=0\frac{ds}{dt} = 0,因此:

s=βγus^* = \frac{\beta}{\gamma} u^*

偏离稳态的方向指示了该基因表达的动态趋势。对所有基因的速度向量进行聚合,得到细胞的速度向量:

vc=gα^g(c)egv_c = \sum_{g} \hat{\alpha}_g(c) \cdot e_g

其中 α^g(c)\hat{\alpha}_g(c) 是基因 gg 在细胞 cc 中的估计转录速率,ege_g 是对应的嵌入空间方向。

scVelo 还引入了隐时间的概念,基于每个细胞的基因表达偏离稳态的程度来推断”发育时钟”:

τc=1Ggsg,csg\tau_c = \frac{1}{G} \sum_{g} \frac{s_{g,c}}{s_g^*}

隐时间与伪时间不同:它基于动力学的内在时间尺度,而非外部路径距离。

假设我们有一批包含造血干细胞(HSC)及其分化后代的单细胞数据。

步骤 1 - 降维与聚类

  • PCA 降维后进行 Leiden 聚类,识别出 5 个 cluster。
  • 通过 marker 基因注释:HSC、髓系祖细胞、淋巴系祖细胞、单核细胞、T 细胞。

步骤 2 - PAGA 拓扑推断

  • 构建 cluster 间的连接图。
  • 发现 HSC 同时连接髓系祖细胞和淋巴系祖细胞,确认分支拓扑。
  • 单核细胞只与髓系祖细胞相连,T 细胞只与淋巴系祖细胞相连。

步骤 3 - RNA Velocity 分析

  • 计算 velocity 向量。
  • 在 HSC cluster 中,速度向量指向髓系祖细胞和淋巴系祖细胞两个方向。
  • 在髓系祖细胞中,速度向量统一指向单核细胞方向。
  • 在终末分化细胞(单核细胞、T 细胞)中,速度趋近于零,符合”分化终点”的预期。

步骤 4 - 差异表达基因

  • 沿伪时间排列基因表达变化。
  • 发现转录因子 PU.1 在髓系分支上调,GATA3 在淋巴系分支上调,确认它们是命运决定的关键调控因子。
方法时间复杂度空间复杂度主要瓶颈
Monocle 3 (DDRTree)O(NdI)O(N \cdot d \cdot I)O(Nd)O(Nd)降维迭代
SlingshotO(Nd+NK)O(N \cdot d + N \cdot K)O(Nd)O(Nd)最小生成树
PAGAO(K2+E)O(K^2 + E)O(K2)O(K^2)cluster 间连接
scVeloO(NG+NGI)O(N \cdot G + N \cdot G \cdot I)O(NG)O(NG)基因级 ODE 求解

其中 NN 为细胞数,dd 为嵌入维度,II 为迭代次数,KK 为 cluster 数,GG 为基因数。

前提假设潜在问题应对策略
发育过程可被截面数据重建动态过程可能无截面覆盖确保采样覆盖发育各阶段
细胞状态连续变化跳跃式的状态转换(如 EMT)考虑非连续的模型
基因表达反映细胞状态技术噪音掩盖信号预处理去除噪音基因
RNA Velocity 的稳态假设成立基因特异性剪接/降解速率差异使用动态模型替代稳态模型
轨迹在低维空间可分复杂的轨迹在高维空间中纠缠尝试不同的降维方法
场景推荐工具理由
线性分化、简单轨迹Slingshot速度快,基于最小生成树,简单直观
复杂分支结构Monocle 3 + PAGA支持任意拓扑,可视化丰富
需要预测演化方向scVeloRNA Velocity 提供前瞻性信息
细胞周期分析Cyclone / scVelo专门针对循环轨迹设计
连续的命运概率Palantir输出每个细胞到各终点的概率
表达矩阵 + 质控
|
v
降维(PCA) + 聚类(Leiden)
|
v
拓扑推断(PAGA)确定轨迹结构
|
v
路径学习(Monocle 3 / Slingshot)分配伪时间
|
v
RNA Velocity(scVelo)验证方向
|
v
差异表达基因 + 转录因子分析
|
v
可视化(沿伪时间的基因表达热图、速度流场图)
  • Street et al., 2018. Slingshot: cell lineage and pseudotime inference for single-cell transcriptomics. BMC Genomics.
  • Cao et al., 2019. The single-cell transcriptional landscape of mammalian organogenesis. Nature (PAGA).
  • Bergen et al., 2020. Generalizing RNA velocity to transient cell states through dynamical modeling. Nature Biotechnology (scVelo).
  • Trapnell et al., 2014. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. Nature Biotechnology (Monocle).
  • Setty et al., 2019. Characterization of cell fate probabilities in single-cell data with Palantir. Nature Biotechnology.
  • Saelens et al., 2019. A comparison of single-cell trajectory inference methods. Nature Biotechnology.