基因层与转录本层表达定量
RNA-seq 定量可以在两个维度进行:转录本层(Isoform-level)提供了精细的剪接信息,而基因层(Gene-level)则在统计上更稳健。理解这两者的转化逻辑是差异表达分析的关键。
- 区分转录本层定量的"高维度不确定性"与基因层聚合的"信息损失"
- 掌握从转录本到基因的聚合算法:简单求和与长度加权
- 理解 Isoform Switching(转录本切换)在基因层分析中的不可见性
- 掌握不同分析任务(如功能富集 vs. 剪接分析)对层级的要求
1. 是什么
Section titled “1. 是什么”RNA-seq 表达定量可以在两个层级上进行:转录本级(Transcript-level / Isoform-level)和基因层(Gene-level)。
- 转录本级定量:直接估计每个具体转录本(Transcript Isoform)的表达量。例如,基因 TP53 可能有 10 个已知的剪接变体,转录本级定量会分别给出这 10 个变体各自的丰度估计。
- 基因层定量:将属于同一个基因的所有转录本的信号合并为一个总表达量。例如,将 TP53 的所有 10 个变体的信号汇总为一个 TP53 基因的表达值。
从计算角度看,RNA-seq 定量工具(如 Salmon、Kallisto)通常首先在转录本级进行丰度估计,再通过聚合算法(如 tximport 包)将其转化为基因层定量。理解这一转化过程中的假设和潜在信息损失,对于正确设计和解读转录组分析至关重要。
2. 为什么重要
Section titled “2. 为什么重要”层级选择不仅是一个技术细节,更直接影响后续分析的解释方向:
- 生物学发现的完整性:很多重要的生物学现象发生在转录本级而非基因层。例如,一种癌症的驱动突变可能仅影响某个特定的剪接变体,而基因总表达量完全不变。如果只在基因层分析,这种关键信号会被完全掩盖。
- 统计可靠性的权衡:转录本级定量面临更高的不确定性——当多个转录本共享大量外显子时,Reads 的归属判断本质上是一个概率问题。相比之下,基因层定量通过聚合抵消了这种不确定性,统计检验的灵敏度(Statistical Power)更高。
- 数据库兼容性:绝大多数功能注释数据库(如 GO、KEGG、Reactome)和基因集富集分析工具(如 GSEA、clusterProfiler)都以基因 ID 为核心构建。如果需要做功能富集分析,基因层定量几乎是必须的。
- 可重复性与标准化:在临床和转化研究中,基因层定量结果的可重复性通常优于转录本级,因为前者对测序深度和比对算法的敏感性较低。
3. 核心概念
Section titled “3. 核心概念”3.1 定量的”解析度”之争
Section titled “3.1 定量的”解析度”之争”转录本层(Transcript-level)
Section titled “转录本层(Transcript-level)”直接估计每个具体 Isoform 的表达量。
- 优点:能捕捉选择性剪接(Alternative Splicing)和转录本切换(Isoform Switching)现象。这对于理解基因调控的精细机制至关重要。
- 挑战:由于不同 Isoform 共享大量外显子,很多 Reads 具有**多重比对(Multi-mapping)**性质——即一个 Read 可能来源于多个不同的转录本。这导致:
- 估计结果的方差较高,尤其对于低丰度转录本。
- 定量工具必须依赖 EM 算法或变分推断来在多个候选转录本之间”分配”Reads,而这些推断的可靠性取决于数据量和序列可区分性。
基因层(Gene-level)
Section titled “基因层(Gene-level)”将属于同一个基因的所有转录本信号合并处理。
- 优点:抵消了 Isoform 间分配的不确定性,统计灵敏度更高,且与 GO/KEGG 等基因功能数据库直接兼容。
- 缺点:掩盖了复杂的剪接变化。一个基因的 Isoform A 减少而 Isoform B 增加,基因层的总表达量可能完全不变。
3.2 为什么 Read 归属是不确定问题
Section titled “3.2 为什么 Read 归属是不确定问题”考虑一个简单的例子:基因 有两个转录本 和 ,其中 包含外显子 , 包含外显子 。
- 落在 上的 Read 只能来自 (唯一映射)。
- 落在 上的 Read 只能来自 (唯一映射)。
- 但落在 或 上的 Read 可能来自 或 (多重映射)。
定量工具的任务就是利用唯一映射的 Reads 和整体 Reads 分布的约束,推断出 和 的相对丰度。当两个转录本的序列几乎完全相同时(如仅差一个外显子),这种推断的不确定性就会非常大。
3.3 聚合算法(Aggregation)
Section titled “3.3 聚合算法(Aggregation)”如果已经获得了转录本层的定量值,可以通过以下方式转化为基因层:
- 简单求和(Sum Aggregation)
- 对于 TPM 指标,由于已经校正过长度,可以直接求和:$ ext{TPM}_{Gene} = sum_{i} ext{TPM}_{Isoform_i}$。这是最简单的聚合方式,适用于需要快速获得基因层表达的场景。
- 长度校正聚合(Length-corrected Aggregation)
- 对于原始计数(Counts),不能简单相加(因为 Isoform 长度不同)。常用工具(如 `tximport`)采用加权聚合:$ ext{Counts}_{Gene} = sum_{i} ext{Counts}_{Isoform_i} cdot rac{ar{L}_{Gene}}{L_{Isoform_i}}$,其中 $ar{L}_{Gene}$ 是该基因所有转录本有效长度的加权平均值。这保证了聚合后的基因计数仍能反映出原本的丰度比例。
- tximport 包
- Bioconductor 中的核心工具,负责将 Salmon/Kallisto 等工具输出的转录本级定量结果聚合为基因层,并生成可直接输入 DESeq2/edgeR 的计数矩阵。它通过"偏置校正"(Bias Correction)步骤,尽量减少由聚合引入的系统性偏差。
3.4 转录本切换(Isoform Switching)
Section titled “3.4 转录本切换(Isoform Switching)”转录本切换是指同一个基因在不同条件下,其主要表达的转录本发生了变化。例如:
- 正常组织中,基因 主要表达较短的转录本 。
- 肿瘤组织中, 的表达降低,而较长的转录本 的表达升高。
- 基因总表达量几乎不变,但功能后果可能截然不同(如 包含额外的蛋白质功能域)。
关键问题:转录本切换在基因层分析中是完全不可见的。要检测这种现象,必须使用转录本级定量,并结合专门的统计工具(如 IsoformSwitchAnalyzeR、SUPPA2、rMATS)。
3.5 定量不确定性与有效计数
Section titled “3.5 定量不确定性与有效计数”转录本级定量的一个重要输出是每个转录本的有效计数(Effective Counts)或不确定性估计。tximport 在聚合时会考虑这种不确定性:
- 如果一个基因的所有 Reads 都可以唯一映射到某一个转录本,聚合的置信度就很高。
- 如果一个基因的 Reads 大部分都是多重映射的(即无法确定来源转录本),聚合的置信度就较低,
tximport会通过缩放因子(Scaling Factor)来反映这种不确定性。
4. 应用场景
Section titled “4. 应用场景”不同分析任务对定量层级有不同的要求:
| 场景 | 推荐层级 | 原因 |
|---|---|---|
| 标准差异表达分析 | 基因层 | 统计模型(DESeq2/edgeR)更稳健,假阳性率低。 |
| 寻找新生物标志物 | 转录本层 | 有些癌症特异性标志物仅在特定 Isoform 上体现,基因层分析会漏掉。 |
| 功能通路分析(GO/KEGG) | 基因层 | 绝大多数数据库以 Gene ID 为核心构建。 |
| 剪接调控研究 | 转录本层 | 必须区分不同的剪接变体才能检测可变剪接事件。 |
| 转录本切换检测 | 转录本层 | 基因层总表达量可能不变,只有转录本级才能揭示比例变化。 |
| 共表达网络分析(WGCNA) | 基因层 | 网络节点通常定义为基因,且需要较高的数据稳健性。 |
| 蛋白质丰度预测 | 转录本层 | 不同的剪接变体可能编码不同的蛋白质产物,需要转录本级信息来预测。 |