跳转到内容

细胞 Barcode 与 UMI

快速概览

在单细胞测序中,我们面临两个核心挑战:如何识别 Read 来自哪个细胞?以及如何区分真实的分子与 PCR 重复?细胞 Barcode 与 UMI (Unique Molecular Identifier) 正是为此设计的分子标签。

  • 掌握细胞 Barcode 的作用:细胞身份的"身份证"
  • 理解 UMI 的统计原理:将 Read 计数转化为原始分子计数
  • 掌握 UMI 去重算法如何校正 PCR 扩增偏差
  • 了解 Barcode 纠错与白名单过滤的逻辑
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

在液滴法(如 10x Genomics)中,每个液滴包含一个带有数百万条引物的凝胶珠。

  • 结构:所有这些引物都共享同一个 16 bp 的序列,这就是 Cell Barcode
  • 逻辑:被该液滴捕获的细胞,其所有的 mRNA 在逆转录后都会带上这个相同的标签。
  • 计算分配:在拆分(Demultiplexing) 阶段,算法根据 Barcode 将海量的 Reads 重新归类到各自的细胞中。

Cell Barcode 的设计需要在两个目标之间取得平衡:

  • 唯一性:能够区分实验中所有的细胞。对于 NN 个细胞,需要 nn 个碱基使得 4nN4^n \gg N。10x Genomics v3 使用 16 bp Barcode,理论上可编码 4164.3×1094^{16} \approx 4.3 \times 10^9 种组合。
  • 纠错能力:测序过程中 Barcode 区域也可能发生碱基错误。设计上要求合法的 Barcode 之间保持足够的汉明距离(Hamming Distance),使得单个碱基错误不会被误判为另一个合法 Barcode。

并非所有 4164^{16} 种序列都能用作 Cell Barcode。厂商通过实验筛选出一组已知能正常工作的 Barcode 序列,构成白名单。在数据处理时,只保留与白名单匹配(或经纠错后匹配)的 Reads,其余视为无效数据。

UMI (Unique Molecular Identifier) 是一段随机生成的短序列(通常 10-12 bp)。

  • 物理过程:在逆转录之前,每个 mRNA 分子都会随机连接上一个独特的 UMI。
  • PCR 扩增:由于 PCR 扩增并不是均匀的,一个原始分子可能产生 10 个 Reads,而另一个只产生 2 个。
  • 去重逻辑:如果多条具有相同 Barcode 的 Reads 映射到同一个基因且携带相同的 UMI,算法会将它们计为一个原始分子
  • Read Count:受 PCR 偏好性影响大,不能真实反映表达量。
  • UMI Count:反映了逆转录前的原始分子数,是目前单细胞定量的标准度量。

假设基因 gg 在细胞 cc 中有 ng,cn_{g,c} 个真实的 mRNA 分子被捕获,每个分子被分配一个 UMI。由于 UMI 空间(4101064^{10} \approx 10^6)通常远大于实际分子数(ng,c106n_{g,c} \ll 10^6),UMI 碰撞的概率很低。

UMI 去重的核心问题可以形式化为:给定同一 Barcode 下映射到同一基因的一组 UMI 序列集合 U={u1,u2,,um}U = \{u_1, u_2, \ldots, u_m\},如何推断原始分子数 nn

理想情况下,如果每个 UMI 只来自一个分子,则 n=Un = |U|(去重后的唯一 UMI 数量)。但测序错误会导致同一个 UMI 被错误读取为多个不同序列,因此需要纠错步骤。

如果 UMI 在测序中错了一个碱基,简单的完全匹配会将其计为两个分子。

  • 解决方案:利用邻域聚类(如 UMI-tools 算法)。如果两个 UMI 的汉明距离为 1,且其中一个丰度远高于另一个,则将其合并。

具体而言,UMI-tools 的方向性(directional)方法遵循以下逻辑:

  1. 对同一基因下的所有 UMI 按观测次数降序排列。
  2. 对于每个 UMI uiu_i,检查是否存在汉明距离为 1 的邻居 UMI uju_j
  3. 如果 uju_j 的观测次数 <ui/2< u_i / 2,则将 uju_j 的所有 Reads 合并到 uiu_i

这一规则背后的直觉是:测序错误产生的变异 UMI 丰度应显著低于其正确来源的 UMI。

方法策略优点缺点
Unique仅保留完全匹配的 UMI最简单严重低估分子数
Cluster基于汉明距离聚类回收测序错误可能合并不同分子
Directional基于频率的方向性合并兼顾准确与回收依赖频率差异足够大
Adjacency基于序列距离网络处理多碱基错误计算开销更大

膝点图(Knee Plot) 与空液滴过滤

Section titled “膝点图(Knee Plot) 与空液滴过滤”

并不是所有检测到的 Barcode 都代表真实细胞。

  • 背景噪声:液滴中可能只含有环境 RNA(Ambient RNA)。
  • 过滤直觉:将所有 Barcode 按 UMI 总数降序排列。真实细胞通常位于曲线的”膝部”上方,而噪音则处于平缓的尾部。

简单的膝点图依赖人工目视判断,不够鲁棒。更系统的方法包括:

  • EmptyDrops(Lun et al., 2019):对每个 Barcode 计算 RNA 概率,使用 FDR 控制假阳性率。即使 UMI 总数较低,只要基因表达谱与已知细胞显著不同,也可判定为真实细胞。
  • Barcode-Rank Inflection:利用 Barcode 排名-丰度曲线的曲率变化自动识别拐点。

4. 表达矩阵(Count Matrix) 的生成

Section titled “4. 表达矩阵(Count Matrix) 的生成”

经过比对和去重,最终输出是一个基因 ×\times 细胞的稀疏矩阵。

  • 维度:通常为 30,00030,000 基因 ×10,000\times 10,000 细胞。
  • 稀疏性:由于捕获效率限制,矩阵中 90% 以上为 0(Dropout 现象)。

从 FASTQ 到 Count Matrix 的完整流程

Section titled “从 FASTQ 到 Count Matrix 的完整流程”
原始 FASTQ 文件(Read 1: Barcode+UMI, Read 2: cDNA)
|
v
Barcode 识别与白名单过滤(cellranger mkfastq / bcl2fastq)
|
v
参考基因组比对(STAR / STARsolo)
|
v
UMI 去重与计数(cellranger count / UMI-tools)
|
v
稀疏表达矩阵(genes x cells, Matrix Market 格式)

由于矩阵极度稀疏(通常 >90% 为 0),实际存储使用稀疏格式而非密集矩阵。常见的格式包括:

  • Matrix Market (.mtx):坐标列表格式,仅存储非零元素及其行列索引。
  • HDF5 (.h5):压缩的二进制格式,支持快速随机访问。
  • AnnData / Seurat 对象:在稀疏矩阵之上封装元数据、降维结果和注释信息。

5. 技术细节:Barcode 与 UMI 的结构

Section titled “5. 技术细节:Barcode 与 UMI 的结构”

以 10x Genomics Chromium v3 为例,Read 1 的结构如下:

[16 nt Cell Barcode] [10 nt UMI] [接头序列]
  • Cell Barcode 位于 Read 1 的最前端,长度 16 bp。
  • UMI 紧随 Barcode 之后,长度 10 bp。
  • 这两部分共同构成每个 Read 的”身份标识”,后续的 cDNA 序列(Read 2)提供实际的基因信息。
平台Barcode 长度UMI 长度Barcode 空间特点
10x Genomics v316 bp10 bp~750,000 (白名单)高通量液滴法
10x Genomics v216 bp10 bp~750,000 (白名单)早期版本
Drop-seq12 bp8 bp较小开源液滴法方案
Smart-seq2无 Barcode无 UMIN/A全长、无标签
inDrop8-11 bp6 bp可变开源液滴法方案

细胞 Barcode 与 UMI 是整个单细胞数据分析管线的基石。它们的质量直接决定了下游所有分析的可靠性:

  • Barcode 错误分配会导致细胞混合,使得原本来自不同细胞的 Reads 被错误合并,产生虚假的”混合态”细胞。
  • UMI 去重不充分会导致高表达基因的定量膨胀,夸大基因间的表达差异,影响差异表达分析的统计推断。
  • 空液滴过滤不当会将背景 RNA 误判为细胞,引入噪音信号,干扰聚类和注释。
  • 实验设计阶段:根据目标细胞数选择合适的 Barcode 空间和 UMI 长度,避免 Barcode 碰撞。
  • 质控阶段:通过 Barcode 排名图和 UMI 统计评估数据质量,识别和过滤空液滴。
  • 定量阶段:通过 UMI 去重获得无 PCR 偏差的基因表达矩阵。
  • 多样本整合:通过基因型或样本特异性 Barcode 实现多样本混池测序(如 Demuxlet、CellHashing)。
  • Smith et al., 2017. UMI-tools: Extracting cellular signals from multiplexed sequencing data. Nature Methods.
  • Lun et al., 2019. EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data. Genome Biology.
  • Zheng et al., 2017. Massively parallel digital transcriptional profiling of single cells. Nature Communications (10x Genomics).
  • Macosko et al., 2015. Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell (Drop-seq).