转录组分析
转录组分析问题:给定 RNA-seq 测序数据(reads 或 fragments)和参考转录组注释,推断各基因或转录本的表达丰度,并识别不同生物学条件下的差异表达基因。
-
输入:
- 测序 reads(通常是 millions 级)
- 参考转录组序列与注释(GTF/GFF 格式)
- 实验设计信息(样本分组、生物学重复)
-
输出:
- 基因/转录本表达矩阵(counts、TPM、FPKM 等)
- 差异表达基因列表(log fold change、p-value、FDR)
- 功能富集与生物学解释
核心算法挑战
Section titled “核心算法挑战”RNA-seq 数据分析涉及一系列相互关联的计算问题:
| 问题 | 核心难点 | 算法策略 |
|---|---|---|
| Read 归属 | 一个 read 可能匹配多个转录本 | Pseudo-alignment、EM 算法、贝叶斯推断 |
| 表达定量 | 从离散计数推断连续丰度 | 极大似然估计、在线学习 |
| 归一化 | 测序深度、转录本长度、文库组成的系统偏差 | CPM、FPKM、TPM、有效长度校正 |
| 差异检验 | 计数数据的离散分布、多重检验 | 负二项分布模型、FDR 控制 |
这一节在全站中的位置
Section titled “这一节在全站中的位置”转录组分析位于”应用方向”层级,其算法基础分布在:
- 索引与比对:FM-index、后缀数组支持快速 read 定位(见序列表示与索引)
- 概率模型:EM 算法用于处理 read 多重归属的不确定性(见隐马尔可夫模型)
- 图算法:转录本组装可建模为图遍历问题(见图算法)
内容组织与学习路径
Section titled “内容组织与学习路径”本节按照数据处理的逻辑流程组织,建议按以下顺序阅读:
- RNA-seq 工作流概览:理解从原始数据到生物学结论的完整流程
- Pseudo-alignment 与表达定量:学习 k-mer 索引与快速定量算法
- TPM、FPKM、CPM 与有效长度:掌握归一化方法的数学定义与适用场景
- 基因层与转录本层表达定量:区分解析层级对下游分析的影响
- 差异表达:从 counts 到统计检验:理解负二项分布模型与多重检验校正
为什么这些算法问题值得关注
Section titled “为什么这些算法问题值得关注”直接运行现有工具(如 Salmon、DESeq2)可以获得结果,但理解底层算法有助于:
- 判断方法适用性:何时使用 pseudo-alignment 而非传统比对?TPM 与 counts 分别适合什么分析?
- 解释结果边界:为什么某些基因无法定量?差异表达的显著性如何判断?
- 诊断分析失败:当结果异常时,能否从算法假设层面定位问题?
起点
RNA-seq 工作流概览
从 reads、质控、mapping/pseudo-alignment 到定量、归一化与差异分析的主线。
进入子主题 定量模型
Pseudo-alignment 与表达定量
理解为什么 RNA-seq 中常见的"更快路线"依赖索引和概率分配思想。
进入子主题 单位与归一化
TPM、FPKM、CPM 与有效长度
区分 counts、CPM、FPKM、TPM 以及有效长度在定量中的作用。
进入子主题 解析层级
基因层与转录本层表达定量
理解何时使用 gene-level,何时需要 transcript-level 表达量。
进入子主题 统计建模
差异表达:从 counts 到统计检验
理解为什么差异分析通常从 counts 出发,以及归一化、离散度和多重检验分别在解决什么问题。
进入子主题