Doublet 检测
在液滴法单细胞测序中,一个液滴可能意外捕获两个或多个细胞,形成「双联体」(Doublet)。这些虚假信号会制造伪造的中间态细胞群,误导发育轨迹分析,必须在质控阶段予以识别和剔除。
- 理解 Doublet 的形成:泊松分布下的随机碰撞
- 掌握异质(Heterotypic) 与同质(Homotypic) Doublet 的检测难度差异
- 掌握基于"人工模拟" (Synthetic Doublets) 的主流检测算法逻辑
- 理解 UMI 异常高值与标记基因共表达作为筛选证据的直觉
1. 核心问题:液滴的”超载”
Section titled “1. 核心问题:液滴的”超载””液滴法(如 10x Genomics)的理想状态是一个液滴对应一个凝胶珠和一个细胞。
- Doublet:一个液滴包裹了两个细胞。
- Multiplet:包裹了三个或更多细胞。
- 后果:产生混合的转录组特征。例如,一个细胞同时表现出 T 细胞和 B 细胞的标记基因,导致算法将其误认为一种”新型免疫细胞”。
2. Doublet 的统计特征
Section titled “2. Doublet 的统计特征”异质 vs 同质
Section titled “异质 vs 同质”- 异质 Doublet (Heterotypic):来自不同细胞类型的组合。它们在 UMAP 上通常出现在两个大类群之间的”桥梁”位置,容易被算法识别。
- 同质 Doublet (Homotypic):来自同一种细胞类型。它们的转录组模式与正常细胞非常相似,只是 UMI 计数和检测到的基因数显著偏高。这类变异极难通过算法完全剔除。
3. 检测算法:Scrublet 的直觉
Section titled “3. 检测算法:Scrublet 的直觉”目前主流工具(如 Scrublet、DoubletFinder)的核心逻辑是人工模拟:
- 构造模拟数据:从真实的表达矩阵中随机抽取两个细胞,将其 UMI 计数相加,生成一个”虚拟 Doublet”。
- 混合降维:将真实细胞与大量虚拟 Doublet 一起投影到 PCA 空间。
- 计算分数:观察每个真实细胞周围的邻居。如果一个细胞的邻居中大部分都是”虚拟 Doublet”,那么它极大概率也是一个真实的 Doublet。
- 阈值设定:根据分数的直方图寻找拐点,标记高分细胞。
| 维度 | Scrublet | DoubletFinder |
|---|---|---|
| 核心方法 | KNN 邻居中的模拟 doublet 比例 | 人工最近邻(ANN) 搜索 + pK 参数优化 |
| 参数调优 | 自动阈值(直方图拐点) | 需手动优化 pK 参数(mean-variance approach) |
| 速度 | 快(基于 PCA + KNN) | 较慢(逐个细胞搜索 ANN) |
| 语言/平台 | Python (scanpy 生态) | R (Seurat 生态) |
| 同质 Doublet | 检测能力有限 | 通过 pN 参数部分缓解 |
其他工具概览
Section titled “其他工具概览”- scDblFinder(R/Bioconductor):基于梯度提升树(Gradient Boosting)的二分类方法,将模拟 doublet 标记为正类、真实细胞为负类,训练分类器后对每个细胞评分。速度快,集成在 scRNA-seq 分析流程中。
- scds(R/Bioconductor):结合共表达(co-expression)分数和二元分类分数,利用”生物学上不应共表达的基因对同时高表达”这一信号来辅助检测。
4. 案例:识别 T-B Doublet
Section titled “4. 案例:识别 T-B Doublet”场景:一份 PBMC(外周血单核细胞)的 scRNA-seq 数据,包含约 5000 个细胞。
异常信号:
- 一个细胞(Cell_3842)同时高表达 CD3E(T 细胞标记,CPM = 850)和 CD19(B 细胞标记,CPM = 620)
- 该细胞的 UMI 总数为 45,000,而同一聚类中其他细胞的 UMI 中位数为 18,000
- 在 UMAP 图上,该细胞位于 T 细胞簇和 B 细胞簇之间的”桥梁”位置
算法判定:
- Scrublet score = 0.82(阈值 0.25)
- DoubletFinder 标记为 Doublet(pANN = 0.71)
- 综合证据:互斥标记共表达 + UMI 异常偏高 + UMAP 桥梁位置 → 高置信度异质 Doublet
处理决策:从表达矩阵中剔除该细胞,重新运行聚类。如果剔除后 T 细胞和 B 细胞簇之间的”桥梁”细胞消失,进一步验证了判断。
4. 实践中的综合判定
Section titled “4. 实践中的综合判定”单靠算法评分往往存在假阳性,通常需要结合以下证据:
- UMI 计数:是否显著高于该类型细胞的平均水平?
- 标记基因:是否出现了生物学上互斥的标记(如 CD3E 与 CD19 同时高表达)?
- 聚类位置:是否位于两个原本界限清晰的 cluster 之间?
5. 何时 Doublet 率更高
Section titled “5. 何时 Doublet 率更高”以下实验条件会显著增加 Doublet 发生率:
| 因素 | 机制 | 缓解策略 |
|---|---|---|
| 上样细胞浓度过高 | 液滴中细胞密度增加,多细胞包裹概率上升 | 遵循厂商推荐的上样密度 |
| 追求极高通量 | 相同体积下细胞密度必须提高 | 平衡通量与质量 |
| 细胞大小不均一 | 大小差异大的细胞体系更难优化液滴参数 | 预分选细胞至均一大小 |
| 样本混池 | 多个样本同时上样增加复杂性 | 结合基因型验证(如 Demuxlet / Vireo) |
| 脆弱或粘连细胞 | 细胞易聚集成团 | 优化解离条件,过滤细胞团 |
典型 10x 实验中,Doublet 率约为 2—8%,与上样细胞密度正相关。在实验设计阶段就应充分考虑这些因素,而非仅依赖后续计算去除。
7. 对下游分析的影响
Section titled “7. 对下游分析的影响”未剔除的 Doublet 会在多个分析环节造成系统性偏差:
异质 Doublet 在降维空间中位于两个真实细胞类型之间的位置,会形成虚假的桥梁簇。这可能导致:
- 研究者误以为发现了一种新的”过渡态”细胞
- 人为增加聚类的分辨率参数来分离这些虚假簇
- 在细胞类型注释时产生困惑
在拟时序(Pseudotime)分析中,Doublet 被错误地视为发育过程中的”中间态”,导致:
- 轨迹路径中出现不存在的分支
- 发育节点的位置估计偏移
- 转录动态的解读完全错误
Doublet 的转录组是两种细胞类型的混合物,其基因表达谱不代表任何真实生物学状态:
- 如果 Doublet 集中在某个簇中,该簇的差异基因列表会包含来自两种细胞类型的混杂信号
- 标记基因的特异性评估会被稀释
因此,Doublet 检测应作为单细胞分析流程中质控阶段的必要步骤,在聚类和下游分析之前完成。
7. 参考资料
Section titled “7. 参考资料”- Wolock et al., Scrublet: Computational Identification of Cell Doublets in Single-Cell Transcriptomic Data (Cell Systems, 2019)
- McGinnis et al., DoubletFinder: Doublet Detection in Single-Cell RNA Sequencing Data Using Artificial Nearest Neighbors (Cell Systems, 2019)
- Kang et al., Demuxlet: Multiplexed droplet single-cell RNA-seq using natural genetic variation (Nature Biotechnology, 2018)
- Huang et al., Vireo: Bayesian demultiplexing of pooled single-cell RNA-seq without genotype reference (Genome Biology, 2019)
- Luecken & Theis, Best practices for single-cell analysis (Nature Reviews Genetics, 2022)