跳转到内容

Pseudo-alignment 与表达定量

快速概览

当 RNA-seq 的分析目标是表达定量时,算法策略从精确比对转向兼容性判断与概率丰度估计。本节介绍基于 k-mer 索引的 lightweight mapping 算法及其复杂度优势。

  • 问题核心:read 归属的不确定性(multi-mapping)与计算效率的权衡
  • 算法策略:k-mer 索引 + 等价类(equivalence class)+ EM 推断
  • 复杂度分析:从 O(reads × transcript_length) 降至 O(reads × k-mer_matches)
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

RNA-seq 表达定量问题:给定一组测序 reads 和参考转录组序列,估计每个转录本(或基因)的表达丰度。

  • 输入

    • 测序 reads 集合 R={r1,r2,...,rn}R = \{r_1, r_2, ..., r_n\},其中 nn 通常为 10610^610810^8 量级
    • 参考转录组序列集合 T={t1,t2,...,tm}T = \{t_1, t_2, ..., t_m\},包含 mm 个已知转录本
  • 输出

    • 每个转录本 tjt_j 的丰度估计值 θ^j\hat{\theta}_j(可以是分子计数或相对丰度)
    • 可选:read-to-transcript 归属概率矩阵
  • 核心难点

    • 由于序列相似性,一个 read 可能兼容(compatible with)多个转录本
    • 需要推断这种归属不确定性(multi-mapping uncertainty)下的最优丰度估计

经典 spliced alignment 算法(如 STAR、HISAT2)需要:

  1. 为每个 read 找到精确的碱基级比对位置
  2. 处理剪接边界、错配、插入缺失
  3. 计算复杂度:O(r×t)O(|r| \times |t|) 对于每个 read-transcript 对

对于 nn 个 reads 和 mm 个转录本,总复杂度可达 O(n×m×L)O(n \times m \times L),其中 LL 为序列长度。

关键观察:表达定量问题不需要精确的碱基级比对,只需要知道:

  1. 该 read 可能来源于哪些转录本(兼容性集合)
  2. 这些转录本的相对丰度如何解释观察到的 reads 分布

算法设计

  1. 索引构建:将转录组序列分解为 k-mer,建立 k-mer 到转录本列表的映射
  2. 兼容性查询:对于每个 read,提取其 k-mer,查询索引,确定兼容转录本集合
  3. 丰度估计:使用 EM 算法或变分推断,在多重归属不确定性下估计丰度

时间复杂度改善

  • 索引查询:O(r)O(|r|) 对于每个 read(假设 k-mer 查询为 O(1)O(1)
  • 总复杂度:O(n×r)O(n \times |r|),相比精确比对降低 1-2 个数量级

定义:将具有相同兼容性集合的 reads 归入同一等价类。

形式化地,对于转录本子集 STS \subseteq T,定义等价类:

CS={rR:Compatible(r)=S}C_S = \{r \in R : \text{Compatible}(r) = S\}

其中 Compatible(r)\text{Compatible}(r) 表示与 read rr 兼容的所有转录本集合。

算法优势

  • 不需要逐个处理每个 read
  • 可以按等价类聚合计数,显著降低 EM 算法的计算负担
  • 等价类数量通常远小于 reads 数量

给定丰度参数 θ=(θ1,...,θm)\theta = (\theta_1, ..., \theta_m),read rr 来源于转录本 tjt_j 的概率为:

P(tjr,θ)=θjP(rtj)kCompatible(r)θkP(rtk)P(t_j | r, \theta) = \frac{\theta_j \cdot P(r | t_j)}{\sum_{k \in \text{Compatible}(r)} \theta_k \cdot P(r | t_k)}

其中 P(rtj)P(r|t_j) 可由序列相似性(如 k-mer 匹配率)估计。

EM 算法迭代

  1. E-step:给定当前丰度估计 θ(t)\theta^{(t)},计算每个 read 的期望归属
  2. M-step:更新丰度参数 θ(t+1)\theta^{(t+1)} 以最大化期望似然

收敛后得到最大似然估计(MLE)或最大后验估计(MAP)。

与传统 Spliced Alignment 的算法比较

Section titled “与传统 Spliced Alignment 的算法比较”
算法特性传统比对(STAR/HISAT2)Pseudo-alignment(Salmon/Kallisto)
核心操作精确序列比对,剪接处理k-mer 匹配,兼容性查询
时间复杂度O(nmL)O(n \cdot m \cdot L)O(nk)O(n \cdot k)kk 为常数
空间复杂度需要存储完整比对结果仅需存储等价类计数
信息粒度碱基级精确位置转录本级归属概率
适用分析剪接分析、新转录本发现、变异检测已知转录本定量、差异表达
算法假设需要完整的参考基因组依赖已知转录本注释

假设有三个转录本 t1,t2,t3t_1, t_2, t_3,五个 reads 的兼容性如下:

Read兼容转录本
r1r_1{t1}\{t_1\}
r2r_2{t1,t2}\{t_1, t_2\}
r3r_3{t1,t2}\{t_1, t_2\}
r4r_4{t2,t3}\{t_2, t_3\}
r5r_5{t3}\{t_3\}

等价类划分:

  • C{t1}={r1}C_{\{t_1\}} = \{r_1\},计数 c1=1c_1 = 1
  • C{t1,t2}={r2,r3}C_{\{t_1, t_2\}} = \{r_2, r_3\},计数 c2=2c_2 = 2
  • C{t2,t3}={r4}C_{\{t_2, t_3\}} = \{r_4\},计数 c3=1c_3 = 1
  • C{t3}={r5}C_{\{t_3\}} = \{r_5\},计数 c4=1c_4 = 1

EM 算法只需在这些等价类上迭代,而非逐个处理 5 个 reads。

这类方法常用于:

  • 快速转录本层表达定量;
  • 大样本批量处理;
  • 把计算重点放在丰度估计而不是定位细节上。
维度 传统比对(STAR/HISAT2) Pseudo-alignment (Salmon/Kallisto)
核心操作 寻找 read 在基因组上的最佳位置 判断 read 与哪个转录本兼容
比对精度 碱基级精确坐标 转录本级兼容性判断
速度 较慢(需要完整 DP 比对) 快 10-50 倍(k-mer 查询)
输出格式 BAM/SAM(完整比对信息) 定量矩阵(TPM/Counts)
下游差异表达 需额外定量步骤(featureCounts) 直接输出定量结果
算法步骤传统比对Pseudo-alignment
索引构建$O(\sumt_j
单 read 处理$O(r
全样本处理$O(n \timesr
EM 迭代不涉及$O(

实践中,pseudo-alignment 的总运行时间可比传统比对快 10-100 倍

选择 Pseudo-alignment 的条件

  • 分析目标为已知转录本的表达定量
  • 参考注释完整且可信(如 GENCODE、Ensembl)
  • 样本量大,计算效率是关键瓶颈
  • 不需要碱基级变异信息或新转录本发现

必须选择传统 Spliced Alignment 的条件

  • 研究剪接模式选择性剪接事件的精确边界
  • 需要发现新转录本融合基因
  • 分析基因组变异(SNP、Indel)对表达的影响
  • 数据质量较差,需要精确的错配/插入缺失处理

Pseudo-alignment 算法假设参考转录组注释是完备的。如果:

  • 样本中存在大量未注释的转录本
  • 参考注释版本与实验物种/品系差异较大

则定量结果会有系统偏差,低估这些基因的真实表达。

虽然 EM 算法可以处理多重归属,但在极端情况下仍有限制:

  • 高度重复序列:如核糖体 RNA、转座子,可能匹配数百个位点
  • 同源基因家族:序列相似度 >95% 的旁系同源基因难以区分

此时需要额外的生物学假设或过滤策略。