Doublet 检测

快速概览

在液滴法单细胞测序中，一个液滴可能意外捕获两个或多个细胞，形成「双联体」（Doublet）。这些虚假信号会制造伪造的中间态细胞群，误导发育轨迹分析，必须在质控阶段予以识别和剔除。

理解 Doublet 的形成：泊松分布下的随机碰撞
掌握异质（Heterotypic）与同质（Homotypic） Doublet 的检测难度差异
掌握基于"人工模拟" (Synthetic Doublets) 的主流检测算法逻辑
理解 UMI 异常高值与标记基因共表达作为筛选证据的直觉

1. 核心问题：液滴的”超载”

液滴法（如 10x Genomics）的理想状态是一个液滴对应一个凝胶珠和一个细胞。

Doublet：一个液滴包裹了两个细胞。
Multiplet：包裹了三个或更多细胞。
后果：产生混合的转录组特征。例如，一个细胞同时表现出 T 细胞和 B 细胞的标记基因，导致算法将其误认为一种”新型免疫细胞”。

2. Doublet 的统计特征

异质 vs 同质

异质 Doublet (Heterotypic)：来自不同细胞类型的组合。它们在 UMAP 上通常出现在两个大类群之间的”桥梁”位置，容易被算法识别。
同质 Doublet (Homotypic)：来自同一种细胞类型。它们的转录组模式与正常细胞非常相似，只是 UMI 计数和检测到的基因数显著偏高。这类变异极难通过算法完全剔除。

3. 检测算法：Scrublet 的直觉

目前主流工具（如 Scrublet、DoubletFinder）的核心逻辑是人工模拟：

构造模拟数据：从真实的表达矩阵中随机抽取两个细胞，将其 UMI 计数相加，生成一个”虚拟 Doublet”。
混合降维：将真实细胞与大量虚拟 Doublet 一起投影到 PCA 空间。
计算分数：观察每个真实细胞周围的邻居。如果一个细胞的邻居中大部分都是”虚拟 Doublet”，那么它极大概率也是一个真实的 Doublet。
阈值设定：根据分数的直方图寻找拐点，标记高分细胞。

算法对比

维度	Scrublet	DoubletFinder
核心方法	KNN 邻居中的模拟 doublet 比例	人工最近邻（ANN）搜索 + pK 参数优化
参数调优	自动阈值（直方图拐点）	需手动优化 pK 参数（mean-variance approach）
速度	快（基于 PCA + KNN）	较慢（逐个细胞搜索 ANN）
语言/平台	Python (scanpy 生态)	R (Seurat 生态)
同质 Doublet	检测能力有限	通过 pN 参数部分缓解

其他工具概览

scDblFinder（R/Bioconductor）：基于梯度提升树（Gradient Boosting）的二分类方法，将模拟 doublet 标记为正类、真实细胞为负类，训练分类器后对每个细胞评分。速度快，集成在 scRNA-seq 分析流程中。
scds（R/Bioconductor）：结合共表达（co-expression）分数和二元分类分数，利用”生物学上不应共表达的基因对同时高表达”这一信号来辅助检测。

4. 案例：识别 T-B Doublet

场景：一份 PBMC（外周血单核细胞）的 scRNA-seq 数据，包含约 5000 个细胞。

异常信号：

一个细胞（Cell_3842）同时高表达 CD3E（T 细胞标记，CPM = 850）和 CD19（B 细胞标记，CPM = 620）
该细胞的 UMI 总数为 45,000，而同一聚类中其他细胞的 UMI 中位数为 18,000
在 UMAP 图上，该细胞位于 T 细胞簇和 B 细胞簇之间的”桥梁”位置

算法判定：

Scrublet score = 0.82（阈值 0.25）
DoubletFinder 标记为 Doublet（pANN = 0.71）
综合证据：互斥标记共表达 + UMI 异常偏高 + UMAP 桥梁位置 → 高置信度异质 Doublet

处理决策：从表达矩阵中剔除该细胞，重新运行聚类。如果剔除后 T 细胞和 B 细胞簇之间的”桥梁”细胞消失，进一步验证了判断。

5. 实践中的综合判定

单靠算法评分往往存在假阳性，通常需要结合以下证据：

UMI 计数：是否显著高于该类型细胞的平均水平？
标记基因：是否出现了生物学上互斥的标记（如 CD3E 与 CD19 同时高表达）？
聚类位置：是否位于两个原本界限清晰的 cluster 之间？

6. 何时 Doublet 率更高

以下实验条件会显著增加 Doublet 发生率：

因素	机制	缓解策略
上样细胞浓度过高	液滴中细胞密度增加，多细胞包裹概率上升	遵循厂商推荐的上样密度
追求极高通量	相同体积下细胞密度必须提高	平衡通量与质量
细胞大小不均一	大小差异大的细胞体系更难优化液滴参数	预分选细胞至均一大小
样本混池	多个样本同时上样增加复杂性	结合基因型验证（如 Demuxlet / Vireo）
脆弱或粘连细胞	细胞易聚集成团	优化解离条件，过滤细胞团

典型 10x 实验中，Doublet 率约为 2—8%，与上样细胞密度正相关。在实验设计阶段就应充分考虑这些因素，而非仅依赖后续计算去除。

7. 对下游分析的影响

未剔除的 Doublet 会在多个分析环节造成系统性偏差：

聚类分析

异质 Doublet 在降维空间中位于两个真实细胞类型之间的位置，会形成虚假的桥梁簇。这可能导致：

研究者误以为发现了一种新的”过渡态”细胞
人为增加聚类的分辨率参数来分离这些虚假簇
在细胞类型注释时产生困惑

轨迹推断

在拟时序（Pseudotime）分析中，Doublet 被错误地视为发育过程中的”中间态”，导致：

轨迹路径中出现不存在的分支
发育节点的位置估计偏移
转录动态的解读完全错误

差异表达

Doublet 的转录组是两种细胞类型的混合物，其基因表达谱不代表任何真实生物学状态：

如果 Doublet 集中在某个簇中，该簇的差异基因列表会包含来自两种细胞类型的混杂信号
标记基因的特异性评估会被稀释

因此，Doublet 检测应作为单细胞分析流程中质控阶段的必要步骤，在聚类和下游分析之前完成。

8. 参考资料

Wolock et al., Scrublet: Computational Identification of Cell Doublets in Single-Cell Transcriptomic Data (Cell Systems, 2019)
McGinnis et al., DoubletFinder: Doublet Detection in Single-Cell RNA Sequencing Data Using Artificial Nearest Neighbors (Cell Systems, 2019)
Kang et al., Demuxlet: Multiplexed droplet single-cell RNA-seq using natural genetic variation (Nature Biotechnology, 2018)
Huang et al., Vireo: Bayesian demultiplexing of pooled single-cell RNA-seq without genotype reference (Genome Biology, 2019)
Luecken & Theis, Best practices for single-cell analysis (Nature Reviews Genetics, 2022)

Doublet 检测

1. 核心问题：液滴的”超载”

2. Doublet 的统计特征

异质 vs 同质

3. 检测算法：Scrublet 的直觉

算法对比

其他工具概览

4. 案例：识别 T-B Doublet

5. 实践中的综合判定

6. 何时 Doublet 率更高

7. 对下游分析的影响

聚类分析

轨迹推断

差异表达

8. 参考资料

相关页面

scRNA-seq 总览

聚类与 UMAP

轨迹推断