scRNA-seq 总览

快速概览

scRNA-seq 是在单细胞分辨率下研究基因表达的技术。它打破了传统 Bulk 测序的「平均值」迷思，允许我们识别稀有细胞群、追踪发育轨迹并解析组织异质性。

理解 scRNA-seq 与 Bulk RNA-seq 的本质差异：从"果昔"到"水果切盘"
掌握主流平台（10x Genomics, Smart-seq2）的捕获原理与优劣
掌握 scRNA-seq 标准分析管线：质控、归一化、降维、聚类
理解 UMI 统计原理如何校正 PCR 扩增偏差

1. 任务目标

scRNA-seq 分析流程的核心目标是：将原始测序数据转化为可解释的细胞图谱。具体包括：

从混合细胞群体中识别不同的细胞类型和亚群。
发现稀有细胞群体（如干细胞、过渡态细胞）。
追踪细胞分化的动态过程（轨迹推断）。
量化细胞间的基因表达差异（差异表达分析）。
整合多样本数据以进行跨条件比较。

2. 为什么需要单细胞测序？

Bulk RNA-seq 的局限：测量的是成千上万个细胞的平均表达水平。这会掩盖：

稀有细胞：如干细胞或免疫亚群。
异质性：即便外观相同的细胞，表达状态也可能完全不同。
动态过程：如细胞分化的中间态。

scRNA-seq 的方案：为每个细胞打上唯一的 Cell Barcode，从而在合并测序后能通过计算手段将 Reads 重新分配回原始细胞。

一个直观的比喻

Bulk RNA-seq 就像把一篮水果打成果昔后分析其成分——你知道整体的营养比例，但不知道每种水果各贡献了多少。scRNA-seq 则像是把水果切成小块逐一分析——你能知道每种水果的特征，甚至发现混入的稀有品种。

3. 核心技术组件

Cell Barcode: 识别细胞身份的 DNA 标签。同一细胞产生的所有 Read 携带相同的 Barcode。
UMI (Unique Molecular Identifier): 识别原始 RNA 分子的 DNA 标签。用于区分真实的分子扩增与 PCR 重复，是单细胞定量的基石。
液滴法（Droplet-based）: 如 10x Genomics。通量极高（数万细胞），但通常只覆盖转录本的 3' 端。
平板法（Plate-based）: 如 Smart-seq2。通量较低，但能实现全长转录本覆盖，灵敏度更高。

主流平台对比

特性	10x Genomics (液滴法)	Smart-seq2 (平板法)	Drop-seq	SPLiT-seq
通量	500-10,000 细胞/样本	96-384 细胞/板	数千细胞	数万细胞
覆盖区域	3’ 端或 5’ 端	全长	3’ 端	3’ 端
灵敏度	中等	高	中低	中等
成本/细胞	低	高	低	极低
UMI 支持	是	否	是	是
适用场景	大规模细胞图谱	等位基因特异性、可变剪接	成本敏感的大规模分析	固定组织/超大规模

技术原理：以 10x Genomics 为例

10x Chromium 系统的工作流程可以概括为以下步骤：

单细胞悬液制备：将组织解离为单细胞悬液。
微流控分装：在微流控芯片中，细胞与凝胶珠（Gel Bead）被包裹在油包水液滴中。凝胶珠上携带数百万条引物，每条引物包含相同的 Cell Barcode、随机 UMI 和 Poly(dT) 序列。
逆转录：在液滴内，mRNA 通过 Poly(A) 尾与引物结合，逆转录生成带有 Barcode 和 UMI 的 cDNA。
液滴破碎与扩增：破碎液滴，合并所有 cDNA，进行 PCR 扩增。
文库构建与测序：添加测序接头，在 Illumina 平台上进行高通量测序。

4. 输入与输出

输入

原始数据：FASTQ 文件（通常包含 Read 1 的 Barcode+UMI 和 Read 2 的 cDNA 序列）。
参考基因组：包含基因注释的参考基因组索引（如 GRCh38 + GENCODE 注释）。

输出

表达矩阵：基因 $\times$ 细胞的稀疏计数矩阵（通常为 Matrix Market 格式）。
细胞元数据：每个细胞的质控指标、聚类标签、降维坐标、注释信息。
基因元数据：每个基因在高变异基因选择中的状态、差异表达统计量。

典型数据规模

数据类型	典型规模
细胞数	1,000 - 100,000+
基因数	20,000 - 30,000
每细胞 UMI 数	1,000 - 50,000
每细胞检测基因数	500 - 5,000
矩阵稀疏度	90% - 98%

5. 步骤总览

scRNA-seq 标准分析流程：从单细胞捕获到降维聚类的完整管线 — scRNA-seq 标准分析流程总览

scRNA-seq 标准分析流程包含以下关键步骤：

预处理（Preprocessing）：比对基因组，利用 Barcode 分配细胞，利用 UMI 去重。
质控（QC）：过滤掉死细胞（线粒体基因占比过高）和空液滴（检测到的基因数太少）。
归一化（Normalization）：消除细胞间的测序深度差异。
特征选择（Feature Selection）：选择高变异基因用于降维。
降维（Dimensionality Reduction）：先用 PCA 提取主成分，再用 UMAP/t-SNE 进行二维可视化。
聚类（Clustering）：基于降维后的特征，利用 Leiden 或 Louvain 算法自动划分细胞群。
注释（Annotation）：寻找每个群的差异表达基因（Marker Genes），结合生物学知识确定细胞类型。
下游分析：差异表达、轨迹推断、细胞通讯分析等。

6. 每步依赖与常见错误

6.1 预处理

依赖：参考基因组索引、FASTQ 文件。

常见错误：

使用了错误的参考基因组版本（如 GRCh37 而非 GRCh38），导致基因注释不匹配。
忽略了 Barcode 白名单过滤，保留了大量空液滴的 Reads。
STARsolo 和 cellranger 的参数设置不一致，导致比对率差异。

6.2 质控

依赖：表达矩阵。

质控指标与典型阈值：

指标	含义	典型过滤阈值
nGenes（检测到的基因数）	细胞的信息丰富度	200 < nGenes < 6,000
nUMI（总 UMI 计数）	测序深度	视实验而定，通常 >500
%mt（线粒体基因占比）	细胞应激/死亡程度	< 10-20%
%hb（血红蛋白基因占比）	红细胞污染	< 1-5%（血液样本）

常见错误：

对所有样本使用相同的固定阈值，忽略了样本间的技术差异。应基于数据的分布（如 MAD 规则）设定动态阈值。
过度过滤导致丢失稀有细胞群。稀有细胞通常 UMI 较低，需要结合 marker 基因表达来确认。
忽略 Doublet（双联体）检测。参见 Doublet 检测。

6.3 归一化

依赖：质控后的表达矩阵。

scRNA-seq 中最常用的归一化方法是CPM + 对数变换（Scanpy）或 SCTransform（Seurat）：

CPM 归一化：

x_{ij}^{\text{norm}} = \frac{x_{ij}}{\sum_g x_{ig}} \times 10^4

对数变换：

x_{ij}^{\log} = \log_1(x_{ij}^{\text{norm}} + 1)

SCTransform 使用正则化负二项回归模型，同时完成归一化、方差稳定化和特征选择，是更现代的方法。

常见错误：

使用 TPM/FPKM 等适用于 Bulk RNA-seq 的归一化方法。单细胞数据因为捕获效率的细胞间差异，需要基于细胞总量的归一化。
未进行对数变换，导致高表达基因主导下游分析。

6.4 特征选择

依赖：归一化后的表达矩阵。

选择高变异基因（Highly Variable Genes, HVGs）是降维前的关键步骤。标准方法：

对每个基因计算其均值 $\mu_g$ 和方差 $\sigma_g^2$ 。
对基因按均值分箱，在每个箱内标准化方差，得到标准化方差。
选择标准化方差最高的 1,000-3,000 个基因。

常见错误：

纳入线粒体基因、核糖体基因等非信息基因作为高变异基因。应在 HVG 选择前过滤这些基因。
选择过多的高变异基因（如 >5,000），将噪音引入降维空间。

6.5 降维与聚类

依赖：高变异基因子矩阵。

常见错误：

PCA 使用了错误的主成分数量。参见聚类与 UMAP 中的详细讨论。
直接在原始高维空间进行聚类而非 PCA 降维后。
k-NN 图的 $k$ 值选择不当。

6.6 注释

依赖：聚类结果、差异表达基因列表。

常见错误：

仅依赖单个 marker 基因注释细胞类型。应结合多个 marker 基因的表达模式进行综合判断。
忽略已知数据库（如 CellMarker、PanglaoDB）中的参考信息。

7. 统计学考量：Dropout 与稀疏性

由于单细胞中 RNA 含量极低，捕获过程具有高度的随机性。

Dropout 现象

某个基因在细胞中确实表达，但因为没被捕获到而显示为 0。Dropout 率与基因表达量负相关：低表达基因的 Dropout 率可能高达 80% 以上。

后果：产生极度稀疏的表达矩阵（通常 90% 以上为 0），这要求下游算法（如轨迹推断）必须具有极强的统计鲁棒性。

Dropout 的数学解释

假设基因 $g$ 在细胞 $c$ 中的真实表达量为 $\lambda_{gc}$ 个 mRNA 分子，捕获效率为 $\phi$ （通常 10-30%）。实际被捕获的分子数服从泊松分布：

n_{gc} \sim \text{Poisson}(\phi \cdot \lambda_{gc})

当 $\phi \cdot \lambda_{gc}$ 很小时（如 $\lambda_{gc} = 1$ ， $\phi = 0.1$ ）， $P(n_{gc} = 0) = e^{-0.1} \approx 0.90$ ，即有 90% 的概率观测到 0。这就是 Dropout 的统计学根源。

缓解策略

策略	方法	效果
Imputation	MAGIC, SAVER, scImpute	填补零值，但可能引入假阳性
模型层面处理	ZINB-WaVE, scVI	在模型中显式建模 Dropout
增大测序深度	提高每细胞 Reads 数	降低 Dropout 率，但成本增加
选择高捕获效率平台	Smart-seq2	灵敏度更高，但通量低

8. 对应算法模块

scRNA-seq 分析流程中涉及的核心算法模块及其对应页面：

分析步骤	核心算法	对应页面
Barcode 分配	序列比对、白名单过滤	细胞 Barcode 与 UMI
UMI 去重	邻域聚类、方向性合并	细胞 Barcode 与 UMI
降维	PCA、UMAP	聚类与 UMAP
聚类	Leiden/Louvain 图社区检测	聚类与 UMAP
轨迹推断	伪时间、RNA Velocity	轨迹推断
Doublet 检测	人工模拟、k-NN 评分	Doublet 检测

9. 注意事项

实验设计阶段

样本量规划：生物学重复比技术重复更重要。3 个以上生物学重复是最低要求。
细胞数目标：对于稀有细胞检测，需要足够的细胞数以保证统计功效。估计稀有细胞比例 $p$ ，检测 $k$ 个稀有细胞所需的最低细胞数为 $N \approx k / p$ 。
对照设计：应设置适当的对照组（如野生型 vs. 突变型），以便进行差异表达分析。

数据分析阶段

批次效应：不同批次、不同实验日期的数据可能存在系统性差异。需要使用 Harmony、scVI、BBKNN 等工具进行批次校正。
数据整合：整合多个数据集时，应先进行批次校正，再进行联合聚类和注释。
可重复性：设置随机种子，记录所有参数和软件版本，确保分析可重复。

10. Worked Example：PBMC 数据分析

外周血单核细胞（PBMC）是 scRNA-seq 最常见的验证数据集之一。

数据概况：

2,700 个 PBMC 细胞（来自 10x Genomics 官方教程数据）
13 个基因的原始表达矩阵

分析结果：

质控后保留约 2,600 个细胞（过滤掉 UMI ＜200 和线粒体比例＞5% 的细胞）
Leiden 聚类（resolution=0.5）识别出 8 个 cluster
通过 marker 基因注释为：Naive CD4+ T、CD14+ Monocyte、B 细胞、CD8+ T 细胞、NK 细胞、FCGR3A+ Monocyte、Dendritic 细胞、Megakaryocyte

典型 marker 基因：

细胞类型	正向 marker 基因
Naive CD4+ T 细胞	IL7R, CCR7
CD14+ Monocyte	CD14, LST1
B 细胞	MS4A1 (CD20)
CD8+ T 细胞	CD8A, CD8B
NK 细胞	NCAM1 (CD56), GNLY
Dendritic 细胞	FCER1A, CST3

11. 后续阅读

完成 scRNA-seq 标准流程后，可以根据研究目标深入以下方向：

轨迹推断：追踪细胞分化的动态过程。参见轨迹推断。
细胞通讯分析：推断细胞间的配体-受体互作（如 CellChat、NicheNet）。
空间转录组整合：将 scRNA-seq 数据映射到空间坐标。参见空间去卷积。
多组学整合：scATAC-seq + scRNA-seq 联合分析（如 Signac、ArchR）。
大规模整合分析：如 Human Cell Atlas、Tabula Muris 等图谱级项目。

常见误区

更多细胞数一定带来更好的结果：
不是。细胞数增加会提高检测稀有细胞群的能力，但也同时增加 Doublet（双联体）率、计算成本和批次效应的复杂性。如果细胞捕获质量差或样本本身异质性低，盲目追求细胞数反而可能引入更多噪声。关键是在细胞数和数据质量之间取得平衡，并做好 Doublet 检测与去除。
聚类数量由算法自动决定：
不是。Leiden/Louvain 算法的 resolution 参数直接控制聚类粒度，不同 resolution 下聚类数量可以差异很大。不存在"自动确定最优聚类数"的魔法——研究者需要结合 marker 基因表达、已知细胞类型和生物学先验知识来判断合理的分群方案。更推荐的做法是尝试多个 resolution，比较结果的生物学合理性。
归一化可以消除所有技术偏差：
不能。归一化（如 CPM、SCTransform）只能校正测序深度等部分技术因素。其他偏差来源——如细胞周期效应、线粒体应激、批次效应、捕获效率差异——需要专门的方法处理（如细胞周期回归、批次校正）。把归一化当作万能的去噪步骤是初学者最常见的技术错误之一。

scRNA-seq 总览

1. 任务目标

2. 为什么需要单细胞测序？

一个直观的比喻

3. 核心技术组件

主流平台对比

技术原理：以 10x Genomics 为例

4. 输入与输出

输入

输出

典型数据规模

5. 步骤总览

6. 每步依赖与常见错误

6.1 预处理

6.2 质控

6.3 归一化

6.4 特征选择

6.5 降维与聚类

6.6 注释

7. 统计学考量：Dropout 与稀疏性

Dropout 现象

Dropout 的数学解释

缓解策略

8. 对应算法模块

9. 注意事项

实验设计阶段

数据分析阶段

10. Worked Example：PBMC 数据分析

11. 后续阅读

相关页面

细胞 Barcode 与 UMI

聚类与 UMAP

轨迹推断