基因层与转录本层表达定量

快速概览

RNA-seq 定量可以在两个维度进行：转录本层（Isoform-level）提供了精细的剪接信息，而基因层（Gene-level）则在统计上更稳健。理解这两者的转化逻辑是差异表达分析的关键。

区分转录本层定量的"高维度不确定性"与基因层聚合的"信息损失"
掌握从转录本到基因的聚合算法：简单求和与长度加权
理解 Isoform Switching（转录本切换）在基因层分析中的不可见性
掌握不同分析任务（如功能富集 vs. 剪接分析）对层级的要求

1. 是什么

RNA-seq 表达定量可以在两个层级上进行：转录本级（Transcript-level / Isoform-level）和基因层（Gene-level）。

转录本级定量：直接估计每个具体转录本（Transcript Isoform）的表达量。例如，基因 TP53 可能有 10 个已知的剪接变体，转录本级定量会分别给出这 10 个变体各自的丰度估计。
基因层定量：将属于同一个基因的所有转录本的信号合并为一个总表达量。例如，将 TP53 的所有 10 个变体的信号汇总为一个 TP53 基因的表达值。

从计算角度看，RNA-seq 定量工具（如 Salmon、Kallisto）通常首先在转录本级进行丰度估计，再通过聚合算法（如 tximport 包）将其转化为基因层定量。理解这一转化过程中的假设和潜在信息损失，对于正确设计和解读转录组分析至关重要。

2. 为什么重要

层级选择不仅是一个技术细节，更直接影响后续分析的解释方向：

生物学发现的完整性：很多重要的生物学现象发生在转录本级而非基因层。例如，一种癌症的驱动突变可能仅影响某个特定的剪接变体，而基因总表达量完全不变。如果只在基因层分析，这种关键信号会被完全掩盖。
统计可靠性的权衡：转录本级定量面临更高的不确定性——当多个转录本共享大量外显子时，Reads 的归属判断本质上是一个概率问题。相比之下，基因层定量通过聚合抵消了这种不确定性，统计检验的灵敏度（Statistical Power）更高。
数据库兼容性：绝大多数功能注释数据库（如 GO、KEGG、Reactome）和基因集富集分析工具（如 GSEA、clusterProfiler）都以基因 ID 为核心构建。如果需要做功能富集分析，基因层定量几乎是必须的。
可重复性与标准化：在临床和转化研究中，基因层定量结果的可重复性通常优于转录本级，因为前者对测序深度和比对算法的敏感性较低。

3. 核心概念

3.1 定量的”解析度”之争

转录本层（Transcript-level）

直接估计每个具体 Isoform 的表达量。

优点：能捕捉选择性剪接（Alternative Splicing）和转录本切换（Isoform Switching）现象。这对于理解基因调控的精细机制至关重要。
挑战：由于不同 Isoform 共享大量外显子，很多 Reads 具有**多重比对（Multi-mapping）**性质——即一个 Read 可能来源于多个不同的转录本。这导致：
- 估计结果的方差较高，尤其对于低丰度转录本。
- 定量工具必须依赖 EM 算法或变分推断来在多个候选转录本之间”分配”Reads，而这些推断的可靠性取决于数据量和序列可区分性。

基因层（Gene-level）

将属于同一个基因的所有转录本信号合并处理。

优点：抵消了 Isoform 间分配的不确定性，统计灵敏度更高，且与 GO/KEGG 等基因功能数据库直接兼容。
缺点：掩盖了复杂的剪接变化。一个基因的 Isoform A 减少而 Isoform B 增加，基因层的总表达量可能完全不变。

3.2 为什么 Read 归属是不确定问题

考虑一个简单的例子：基因 $G$ 有两个转录本 $T_1$ 和 $T_2$ ，其中 $T_1$ 包含外显子 $\{E_1, E_2, E_3\}$ ， $T_2$ 包含外显子 $\{E_1, E_2, E_4\}$ 。

落在 $E_3$ 上的 Read 只能来自 $T_1$ （唯一映射）。
落在 $E_4$ 上的 Read 只能来自 $T_2$ （唯一映射）。
但落在 $E_1$ 或 $E_2$ 上的 Read 可能来自 $T_1$ 或 $T_2$ （多重映射）。

定量工具的任务就是利用唯一映射的 Reads 和整体 Reads 分布的约束，推断出 $T_1$ 和 $T_2$ 的相对丰度。当两个转录本的序列几乎完全相同时（如仅差一个外显子），这种推断的不确定性就会非常大。

3.3 聚合算法（Aggregation）

如果已经获得了转录本层的定量值，可以通过以下方式转化为基因层：

简单求和（Sum Aggregation）: 对于 TPM 指标，由于已经校正过长度，可以直接求和：$ ext{TPM}_{Gene} = sum_{i} ext{TPM}_{Isoform_i}$。这是最简单的聚合方式，适用于需要快速获得基因层表达的场景。
长度校正聚合（Length-corrected Aggregation）: 对于原始计数（Counts），不能简单相加（因为 Isoform 长度不同）。常用工具（如 `tximport`）采用加权聚合：$ ext{Counts}_{Gene} = sum_{i} ext{Counts}_{Isoform_i} cdot rac{ar{L}_{Gene}}{L_{Isoform_i}}$，其中 $ar{L}_{Gene}$ 是该基因所有转录本有效长度的加权平均值。这保证了聚合后的基因计数仍能反映出原本的丰度比例。
tximport 包: Bioconductor 中的核心工具，负责将 Salmon/Kallisto 等工具输出的转录本级定量结果聚合为基因层，并生成可直接输入 DESeq2/edgeR 的计数矩阵。它通过"偏置校正"（Bias Correction）步骤，尽量减少由聚合引入的系统性偏差。

3.4 转录本切换（Isoform Switching）

转录本切换是指同一个基因在不同条件下，其主要表达的转录本发生了变化。例如：

正常组织中，基因 $G$ 主要表达较短的转录本 $T_1$ 。
肿瘤组织中， $T_1$ 的表达降低，而较长的转录本 $T_2$ 的表达升高。
基因总表达量几乎不变，但功能后果可能截然不同（如 $T_2$ 包含额外的蛋白质功能域）。

关键问题：转录本切换在基因层分析中是完全不可见的。要检测这种现象，必须使用转录本级定量，并结合专门的统计工具（如 IsoformSwitchAnalyzeR、SUPPA2、rMATS）。

3.5 定量不确定性与有效计数

转录本级定量的一个重要输出是每个转录本的有效计数（Effective Counts）或不确定性估计。tximport 在聚合时会考虑这种不确定性：

如果一个基因的所有 Reads 都可以唯一映射到某一个转录本，聚合的置信度就很高。
如果一个基因的 Reads 大部分都是多重映射的（即无法确定来源转录本），聚合的置信度就较低，tximport 会通过缩放因子（Scaling Factor）来反映这种不确定性。

4. 应用场景

不同分析任务对定量层级有不同的要求：

场景	推荐层级	原因
标准差异表达分析	基因层	统计模型（DESeq2/edgeR）更稳健，假阳性率低。
寻找新生物标志物	转录本层	有些癌症特异性标志物仅在特定 Isoform 上体现，基因层分析会漏掉。
功能通路分析（GO/KEGG）	基因层	绝大多数数据库以 Gene ID 为核心构建。
剪接调控研究	转录本层	必须区分不同的剪接变体才能检测可变剪接事件。
转录本切换检测	转录本层	基因层总表达量可能不变，只有转录本级才能揭示比例变化。
共表达网络分析（WGCNA）	基因层	网络节点通常定义为基因，且需要较高的数据稳健性。
蛋白质丰度预测	转录本层	不同的剪接变体可能编码不同的蛋白质产物，需要转录本级信息来预测。