跳转到内容

基因层与转录本层表达定量

快速概览

RNA-seq 定量可以在两个维度进行:转录本层(Isoform-level)提供了精细的剪接信息,而基因层(Gene-level)则在统计上更稳健。理解这两者的转化逻辑是差异表达分析的关键。

  • 区分转录本层定量的"高维度不确定性"与基因层聚合的"信息损失"
  • 掌握从转录本到基因的聚合算法:简单求和与长度加权
  • 理解 Isoform Switching(转录本切换)在基因层分析中的不可见性
  • 掌握不同分析任务(如功能富集 vs. 剪接分析)对层级的要求
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

RNA-seq 表达定量可以在两个层级上进行:转录本级(Transcript-level / Isoform-level)和基因层(Gene-level)。

  • 转录本级定量:直接估计每个具体转录本(Transcript Isoform)的表达量。例如,基因 TP53 可能有 10 个已知的剪接变体,转录本级定量会分别给出这 10 个变体各自的丰度估计。
  • 基因层定量:将属于同一个基因的所有转录本的信号合并为一个总表达量。例如,将 TP53 的所有 10 个变体的信号汇总为一个 TP53 基因的表达值。

从计算角度看,RNA-seq 定量工具(如 Salmon、Kallisto)通常首先在转录本级进行丰度估计,再通过聚合算法(如 tximport 包)将其转化为基因层定量。理解这一转化过程中的假设和潜在信息损失,对于正确设计和解读转录组分析至关重要。

层级选择不仅是一个技术细节,更直接影响后续分析的解释方向:

  • 生物学发现的完整性:很多重要的生物学现象发生在转录本级而非基因层。例如,一种癌症的驱动突变可能仅影响某个特定的剪接变体,而基因总表达量完全不变。如果只在基因层分析,这种关键信号会被完全掩盖。
  • 统计可靠性的权衡:转录本级定量面临更高的不确定性——当多个转录本共享大量外显子时,Reads 的归属判断本质上是一个概率问题。相比之下,基因层定量通过聚合抵消了这种不确定性,统计检验的灵敏度(Statistical Power)更高。
  • 数据库兼容性:绝大多数功能注释数据库(如 GO、KEGG、Reactome)和基因集富集分析工具(如 GSEA、clusterProfiler)都以基因 ID 为核心构建。如果需要做功能富集分析,基因层定量几乎是必须的。
  • 可重复性与标准化:在临床和转化研究中,基因层定量结果的可重复性通常优于转录本级,因为前者对测序深度和比对算法的敏感性较低。

直接估计每个具体 Isoform 的表达量。

  • 优点:能捕捉选择性剪接(Alternative Splicing)和转录本切换(Isoform Switching)现象。这对于理解基因调控的精细机制至关重要。
  • 挑战:由于不同 Isoform 共享大量外显子,很多 Reads 具有**多重比对(Multi-mapping)**性质——即一个 Read 可能来源于多个不同的转录本。这导致:
    • 估计结果的方差较高,尤其对于低丰度转录本。
    • 定量工具必须依赖 EM 算法或变分推断来在多个候选转录本之间”分配”Reads,而这些推断的可靠性取决于数据量和序列可区分性。

将属于同一个基因的所有转录本信号合并处理。

  • 优点:抵消了 Isoform 间分配的不确定性,统计灵敏度更高,且与 GO/KEGG 等基因功能数据库直接兼容。
  • 缺点:掩盖了复杂的剪接变化。一个基因的 Isoform A 减少而 Isoform B 增加,基因层的总表达量可能完全不变。

3.2 为什么 Read 归属是不确定问题

Section titled “3.2 为什么 Read 归属是不确定问题”

考虑一个简单的例子:基因 GG 有两个转录本 T1T_1T2T_2,其中 T1T_1 包含外显子 {E1,E2,E3}\{E_1, E_2, E_3\}T2T_2 包含外显子 {E1,E2,E4}\{E_1, E_2, E_4\}

  • 落在 E3E_3 上的 Read 只能来自 T1T_1(唯一映射)。
  • 落在 E4E_4 上的 Read 只能来自 T2T_2(唯一映射)。
  • 但落在 E1E_1E2E_2 上的 Read 可能来自 T1T_1T2T_2(多重映射)。

定量工具的任务就是利用唯一映射的 Reads 和整体 Reads 分布的约束,推断出 T1T_1T2T_2 的相对丰度。当两个转录本的序列几乎完全相同时(如仅差一个外显子),这种推断的不确定性就会非常大。

如果已经获得了转录本层的定量值,可以通过以下方式转化为基因层:

简单求和(Sum Aggregation)
对于 TPM 指标,由于已经校正过长度,可以直接求和:$ ext{TPM}_{Gene} = sum_{i} ext{TPM}_{Isoform_i}$。这是最简单的聚合方式,适用于需要快速获得基因层表达的场景。
长度校正聚合(Length-corrected Aggregation)
对于原始计数(Counts),不能简单相加(因为 Isoform 长度不同)。常用工具(如 `tximport`)采用加权聚合:$ ext{Counts}_{Gene} = sum_{i} ext{Counts}_{Isoform_i} cdot rac{ar{L}_{Gene}}{L_{Isoform_i}}$,其中 $ar{L}_{Gene}$ 是该基因所有转录本有效长度的加权平均值。这保证了聚合后的基因计数仍能反映出原本的丰度比例。
tximport 包
Bioconductor 中的核心工具,负责将 Salmon/Kallisto 等工具输出的转录本级定量结果聚合为基因层,并生成可直接输入 DESeq2/edgeR 的计数矩阵。它通过"偏置校正"(Bias Correction)步骤,尽量减少由聚合引入的系统性偏差。

3.4 转录本切换(Isoform Switching)

Section titled “3.4 转录本切换(Isoform Switching)”

转录本切换是指同一个基因在不同条件下,其主要表达的转录本发生了变化。例如:

  • 正常组织中,基因 GG 主要表达较短的转录本 T1T_1
  • 肿瘤组织中,T1T_1 的表达降低,而较长的转录本 T2T_2 的表达升高。
  • 基因总表达量几乎不变,但功能后果可能截然不同(如 T2T_2 包含额外的蛋白质功能域)。

关键问题:转录本切换在基因层分析中是完全不可见的。要检测这种现象,必须使用转录本级定量,并结合专门的统计工具(如 IsoformSwitchAnalyzeR、SUPPA2、rMATS)。

转录本级定量的一个重要输出是每个转录本的有效计数(Effective Counts)不确定性估计tximport 在聚合时会考虑这种不确定性:

  • 如果一个基因的所有 Reads 都可以唯一映射到某一个转录本,聚合的置信度就很高。
  • 如果一个基因的 Reads 大部分都是多重映射的(即无法确定来源转录本),聚合的置信度就较低,tximport 会通过缩放因子(Scaling Factor)来反映这种不确定性。

不同分析任务对定量层级有不同的要求:

场景推荐层级原因
标准差异表达分析基因层统计模型(DESeq2/edgeR)更稳健,假阳性率低。
寻找新生物标志物转录本层有些癌症特异性标志物仅在特定 Isoform 上体现,基因层分析会漏掉。
功能通路分析(GO/KEGG)基因层绝大多数数据库以 Gene ID 为核心构建。
剪接调控研究转录本层必须区分不同的剪接变体才能检测可变剪接事件。
转录本切换检测转录本层基因层总表达量可能不变,只有转录本级才能揭示比例变化。
共表达网络分析(WGCNA)基因层网络节点通常定义为基因,且需要较高的数据稳健性。
蛋白质丰度预测转录本层不同的剪接变体可能编码不同的蛋白质产物,需要转录本级信息来预测。