细胞 Barcode 与 UMI
在单细胞测序中,我们面临两个核心挑战:如何识别 Read 来自哪个细胞?以及如何区分真实的分子与 PCR 重复?细胞 Barcode 与 UMI (Unique Molecular Identifier) 正是为此设计的分子标签。
- 掌握细胞 Barcode 的作用:细胞身份的"身份证"
- 理解 UMI 的统计原理:将 Read 计数转化为原始分子计数
- 掌握 UMI 去重算法如何校正 PCR 扩增偏差
- 了解 Barcode 纠错与白名单过滤的逻辑
1. 细胞 Barcode:标记空间身份
Section titled “1. 细胞 Barcode:标记空间身份”在液滴法(如 10x Genomics)中,每个液滴包含一个带有数百万条引物的凝胶珠。
- 结构:所有这些引物都共享同一个 16 bp 的序列,这就是 Cell Barcode。
- 逻辑:被该液滴捕获的细胞,其所有的 mRNA 在逆转录后都会带上这个相同的标签。
- 计算分配:在拆分(Demultiplexing) 阶段,算法根据 Barcode 将海量的 Reads 重新归类到各自的细胞中。
Barcode 的信息论考量
Section titled “Barcode 的信息论考量”Cell Barcode 的设计需要在两个目标之间取得平衡:
- 唯一性:能够区分实验中所有的细胞。对于 个细胞,需要 个碱基使得 。10x Genomics v3 使用 16 bp Barcode,理论上可编码 种组合。
- 纠错能力:测序过程中 Barcode 区域也可能发生碱基错误。设计上要求合法的 Barcode 之间保持足够的汉明距离(Hamming Distance),使得单个碱基错误不会被误判为另一个合法 Barcode。
Barcode 白名单(Whitelist)
Section titled “Barcode 白名单(Whitelist)”并非所有 种序列都能用作 Cell Barcode。厂商通过实验筛选出一组已知能正常工作的 Barcode 序列,构成白名单。在数据处理时,只保留与白名单匹配(或经纠错后匹配)的 Reads,其余视为无效数据。
2. UMI:标记分子身份
Section titled “2. UMI:标记分子身份”UMI (Unique Molecular Identifier) 是一段随机生成的短序列(通常 10-12 bp)。
- 物理过程:在逆转录之前,每个 mRNA 分子都会随机连接上一个独特的 UMI。
- PCR 扩增:由于 PCR 扩增并不是均匀的,一个原始分子可能产生 10 个 Reads,而另一个只产生 2 个。
- 去重逻辑:如果多条具有相同 Barcode 的 Reads 映射到同一个基因且携带相同的 UMI,算法会将它们计为一个原始分子。
UMI Count vs Read Count
Section titled “UMI Count vs Read Count”- Read Count:受 PCR 偏好性影响大,不能真实反映表达量。
- UMI Count:反映了逆转录前的原始分子数,是目前单细胞定量的标准度量。
UMI 的数学模型
Section titled “UMI 的数学模型”假设基因 在细胞 中有 个真实的 mRNA 分子被捕获,每个分子被分配一个 UMI。由于 UMI 空间()通常远大于实际分子数(),UMI 碰撞的概率很低。
UMI 去重的核心问题可以形式化为:给定同一 Barcode 下映射到同一基因的一组 UMI 序列集合 ,如何推断原始分子数 ?
理想情况下,如果每个 UMI 只来自一个分子,则 (去重后的唯一 UMI 数量)。但测序错误会导致同一个 UMI 被错误读取为多个不同序列,因此需要纠错步骤。
3. 算法挑战:纠错与过滤
Section titled “3. 算法挑战:纠错与过滤”测序错误的处理
Section titled “测序错误的处理”如果 UMI 在测序中错了一个碱基,简单的完全匹配会将其计为两个分子。
- 解决方案:利用邻域聚类(如 UMI-tools 算法)。如果两个 UMI 的汉明距离为 1,且其中一个丰度远高于另一个,则将其合并。
具体而言,UMI-tools 的方向性(directional)方法遵循以下逻辑:
- 对同一基因下的所有 UMI 按观测次数降序排列。
- 对于每个 UMI ,检查是否存在汉明距离为 1 的邻居 UMI 。
- 如果 的观测次数 ,则将 的所有 Reads 合并到 。
这一规则背后的直觉是:测序错误产生的变异 UMI 丰度应显著低于其正确来源的 UMI。
UMI-tools 的算法变体
Section titled “UMI-tools 的算法变体”| 方法 | 策略 | 优点 | 缺点 |
|---|---|---|---|
| Unique | 仅保留完全匹配的 UMI | 最简单 | 严重低估分子数 |
| Cluster | 基于汉明距离聚类 | 回收测序错误 | 可能合并不同分子 |
| Directional | 基于频率的方向性合并 | 兼顾准确与回收 | 依赖频率差异足够大 |
| Adjacency | 基于序列距离网络 | 处理多碱基错误 | 计算开销更大 |
膝点图(Knee Plot) 与空液滴过滤
Section titled “膝点图(Knee Plot) 与空液滴过滤”并不是所有检测到的 Barcode 都代表真实细胞。
- 背景噪声:液滴中可能只含有环境 RNA(Ambient RNA)。
- 过滤直觉:将所有 Barcode 按 UMI 总数降序排列。真实细胞通常位于曲线的”膝部”上方,而噪音则处于平缓的尾部。
空液滴检测的统计方法
Section titled “空液滴检测的统计方法”简单的膝点图依赖人工目视判断,不够鲁棒。更系统的方法包括:
- EmptyDrops(Lun et al., 2019):对每个 Barcode 计算 RNA 概率,使用 FDR 控制假阳性率。即使 UMI 总数较低,只要基因表达谱与已知细胞显著不同,也可判定为真实细胞。
- Barcode-Rank Inflection:利用 Barcode 排名-丰度曲线的曲率变化自动识别拐点。
4. 表达矩阵(Count Matrix) 的生成
Section titled “4. 表达矩阵(Count Matrix) 的生成”经过比对和去重,最终输出是一个基因 细胞的稀疏矩阵。
- 维度:通常为 基因 细胞。
- 稀疏性:由于捕获效率限制,矩阵中 90% 以上为 0(Dropout 现象)。
从 FASTQ 到 Count Matrix 的完整流程
Section titled “从 FASTQ 到 Count Matrix 的完整流程”原始 FASTQ 文件(Read 1: Barcode+UMI, Read 2: cDNA) | vBarcode 识别与白名单过滤(cellranger mkfastq / bcl2fastq) | v参考基因组比对(STAR / STARsolo) | vUMI 去重与计数(cellranger count / UMI-tools) | v稀疏表达矩阵(genes x cells, Matrix Market 格式)矩阵的稀疏表示
Section titled “矩阵的稀疏表示”由于矩阵极度稀疏(通常 >90% 为 0),实际存储使用稀疏格式而非密集矩阵。常见的格式包括:
- Matrix Market (.mtx):坐标列表格式,仅存储非零元素及其行列索引。
- HDF5 (.h5):压缩的二进制格式,支持快速随机访问。
- AnnData / Seurat 对象:在稀疏矩阵之上封装元数据、降维结果和注释信息。
5. 技术细节:Barcode 与 UMI 的结构
Section titled “5. 技术细节:Barcode 与 UMI 的结构”以 10x Genomics Chromium v3 为例,Read 1 的结构如下:
[16 nt Cell Barcode] [10 nt UMI] [接头序列]- Cell Barcode 位于 Read 1 的最前端,长度 16 bp。
- UMI 紧随 Barcode 之后,长度 10 bp。
- 这两部分共同构成每个 Read 的”身份标识”,后续的 cDNA 序列(Read 2)提供实际的基因信息。
不同平台的 Barcode 设计
Section titled “不同平台的 Barcode 设计”| 平台 | Barcode 长度 | UMI 长度 | Barcode 空间 | 特点 |
|---|---|---|---|---|
| 10x Genomics v3 | 16 bp | 10 bp | ~750,000 (白名单) | 高通量液滴法 |
| 10x Genomics v2 | 16 bp | 10 bp | ~750,000 (白名单) | 早期版本 |
| Drop-seq | 12 bp | 8 bp | 较小 | 开源液滴法方案 |
| Smart-seq2 | 无 Barcode | 无 UMI | N/A | 全长、无标签 |
| inDrop | 8-11 bp | 6 bp | 可变 | 开源液滴法方案 |
6. 为什么重要
Section titled “6. 为什么重要”细胞 Barcode 与 UMI 是整个单细胞数据分析管线的基石。它们的质量直接决定了下游所有分析的可靠性:
- Barcode 错误分配会导致细胞混合,使得原本来自不同细胞的 Reads 被错误合并,产生虚假的”混合态”细胞。
- UMI 去重不充分会导致高表达基因的定量膨胀,夸大基因间的表达差异,影响差异表达分析的统计推断。
- 空液滴过滤不当会将背景 RNA 误判为细胞,引入噪音信号,干扰聚类和注释。
7. 应用场景
Section titled “7. 应用场景”- 实验设计阶段:根据目标细胞数选择合适的 Barcode 空间和 UMI 长度,避免 Barcode 碰撞。
- 质控阶段:通过 Barcode 排名图和 UMI 统计评估数据质量,识别和过滤空液滴。
- 定量阶段:通过 UMI 去重获得无 PCR 偏差的基因表达矩阵。
- 多样本整合:通过基因型或样本特异性 Barcode 实现多样本混池测序(如 Demuxlet、CellHashing)。
- Smith et al., 2017. UMI-tools: Extracting cellular signals from multiplexed sequencing data. Nature Methods.
- Lun et al., 2019. EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data. Genome Biology.
- Zheng et al., 2017. Massively parallel digital transcriptional profiling of single cells. Nature Communications (10x Genomics).
- Macosko et al., 2015. Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell (Drop-seq).