跳转到内容

转录组分析

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

适合谁读 建议在以下阶段阅读

已具备分子生物学基础，希望系统理解 RNA-seq 数据分析算法原理的读者

建议起点 推荐阅读路径

从 RNA-seq 数据处理的算法问题出发，依次理解表达定量、归一化与差异表达的统计建模。

问题定义

转录组分析问题：给定 RNA-seq 测序数据（reads 或 fragments）和参考转录组注释，推断各基因或转录本的表达丰度，并识别不同生物学条件下的差异表达基因。

输入：
- 测序 reads（通常是 millions 级）
- 参考转录组序列与注释（GTF/GFF 格式）
- 实验设计信息（样本分组、生物学重复）
输出：
- 基因/转录本表达矩阵（counts、TPM、FPKM 等）
- 差异表达基因列表（log fold change、p-value、FDR）
- 功能富集与生物学解释

核心算法挑战

RNA-seq 数据分析涉及一系列相互关联的计算问题：

问题	核心难点	算法策略
Read 归属	一个 read 可能匹配多个转录本	Pseudo-alignment、EM 算法、贝叶斯推断
表达定量	从离散计数推断连续丰度	极大似然估计、在线学习
归一化	测序深度、转录本长度、文库组成的系统偏差	CPM、FPKM、TPM、有效长度校正
差异检验	计数数据的离散分布、多重检验	负二项分布模型、FDR 控制

这一节在全站中的位置

转录组分析位于”应用方向”层级，其算法基础分布在：

索引与比对：FM-index、后缀数组支持快速 read 定位（见序列表示与索引）
概率模型：EM 算法用于处理 read 多重归属的不确定性（见隐马尔可夫模型）
图算法：转录本组装可建模为图遍历问题（见图算法）

内容组织与学习路径

本节按照数据处理的逻辑流程组织，建议按以下顺序阅读：

RNA-seq 工作流概览：理解从原始数据到生物学结论的完整流程
Pseudo-alignment 与表达定量：学习 k-mer 索引与快速定量算法
TPM、FPKM、CPM 与有效长度：掌握归一化方法的数学定义与适用场景
基因层与转录本层表达定量：区分解析层级对下游分析的影响
差异表达：从 counts 到统计检验：理解负二项分布模型与多重检验校正

为什么这些算法问题值得关注

直接运行现有工具（如 Salmon、DESeq2）可以获得结果，但理解底层算法有助于：

判断方法适用性：何时使用 pseudo-alignment 而非传统比对？TPM 与 counts 分别适合什么分析？
解释结果边界：为什么某些基因无法定量？差异表达的显著性如何判断？
诊断分析失败：当结果异常时，能否从算法假设层面定位问题？

子主题导航

起点 workflow

RNA-seq 工作流概览

从 reads、质控、mapping/pseudo-alignment 到定量、归一化与差异分析的主线。

进入子主题

定量模型 quantification

Pseudo-alignment 与表达定量

理解为什么 RNA-seq 中常见的"更快路线"依赖索引和概率分配思想。

进入子主题

单位与归一化 TPM/FPKM/CPM

TPM、FPKM、CPM 与有效长度

区分 counts、CPM、FPKM、TPM 以及有效长度在定量中的作用。

进入子主题

解析层级 gene vs transcript

基因层与转录本层表达定量

理解何时使用 gene-level，何时需要 transcript-level 表达量。

进入子主题

统计建模 DE analysis

差异表达：从 counts 到统计检验

理解为什么差异分析通常从 counts 出发，以及归一化、离散度和多重检验分别在解决什么问题。

进入子主题

与其他板块的连接