跳转到内容

转录组分析

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

适合谁读 建议在以下阶段阅读

已具备分子生物学基础,希望系统理解 RNA-seq 数据分析算法原理的读者

建议起点 推荐阅读路径

从 RNA-seq 数据处理的算法问题出发,依次理解表达定量、归一化与差异表达的统计建模。

转录组分析问题:给定 RNA-seq 测序数据(reads 或 fragments)和参考转录组注释,推断各基因或转录本的表达丰度,并识别不同生物学条件下的差异表达基因。

  • 输入

    • 测序 reads(通常是 millions 级)
    • 参考转录组序列与注释(GTF/GFF 格式)
    • 实验设计信息(样本分组、生物学重复)
  • 输出

    • 基因/转录本表达矩阵(counts、TPM、FPKM 等)
    • 差异表达基因列表(log fold change、p-value、FDR)
    • 功能富集与生物学解释

RNA-seq 数据分析涉及一系列相互关联的计算问题:

问题核心难点算法策略
Read 归属一个 read 可能匹配多个转录本Pseudo-alignment、EM 算法、贝叶斯推断
表达定量从离散计数推断连续丰度极大似然估计、在线学习
归一化测序深度、转录本长度、文库组成的系统偏差CPM、FPKM、TPM、有效长度校正
差异检验计数数据的离散分布、多重检验负二项分布模型、FDR 控制

转录组分析位于”应用方向”层级,其算法基础分布在:

  • 索引与比对:FM-index、后缀数组支持快速 read 定位(见序列表示与索引
  • 概率模型:EM 算法用于处理 read 多重归属的不确定性(见隐马尔可夫模型
  • 图算法:转录本组装可建模为图遍历问题(见图算法

本节按照数据处理的逻辑流程组织,建议按以下顺序阅读:

  1. RNA-seq 工作流概览:理解从原始数据到生物学结论的完整流程
  2. Pseudo-alignment 与表达定量:学习 k-mer 索引与快速定量算法
  3. TPM、FPKM、CPM 与有效长度:掌握归一化方法的数学定义与适用场景
  4. 基因层与转录本层表达定量:区分解析层级对下游分析的影响
  5. 差异表达:从 counts 到统计检验:理解负二项分布模型与多重检验校正

直接运行现有工具(如 Salmon、DESeq2)可以获得结果,但理解底层算法有助于:

  • 判断方法适用性:何时使用 pseudo-alignment 而非传统比对?TPM 与 counts 分别适合什么分析?
  • 解释结果边界:为什么某些基因无法定量?差异表达的显著性如何判断?
  • 诊断分析失败:当结果异常时,能否从算法假设层面定位问题?