scRNA-seq 总览
scRNA-seq 是在单细胞分辨率下研究基因表达的技术。它打破了传统 Bulk 测序的「平均值」迷思,允许我们识别稀有细胞群、追踪发育轨迹并解析组织异质性。
- 理解 scRNA-seq 与 Bulk RNA-seq 的本质差异:从"果昔"到"水果切盘"
- 掌握主流平台(10x Genomics, Smart-seq2)的捕获原理与优劣
- 掌握 scRNA-seq 标准分析管线:质控、归一化、降维、聚类
- 理解 UMI 统计原理如何校正 PCR 扩增偏差
1. 任务目标
Section titled “1. 任务目标”scRNA-seq 分析流程的核心目标是:将原始测序数据转化为可解释的细胞图谱。具体包括:
- 从混合细胞群体中识别不同的细胞类型和亚群。
- 发现稀有细胞群体(如干细胞、过渡态细胞)。
- 追踪细胞分化的动态过程(轨迹推断)。
- 量化细胞间的基因表达差异(差异表达分析)。
- 整合多样本数据以进行跨条件比较。
2. 为什么需要单细胞测序?
Section titled “2. 为什么需要单细胞测序?”Bulk RNA-seq 的局限:测量的是成千上万个细胞的平均表达水平。这会掩盖:
- 稀有细胞:如干细胞或免疫亚群。
- 异质性:即便外观相同的细胞,表达状态也可能完全不同。
- 动态过程:如细胞分化的中间态。
scRNA-seq 的方案:为每个细胞打上唯一的 Cell Barcode,从而在合并测序后能通过计算手段将 Reads 重新分配回原始细胞。
一个直观的比喻
Section titled “一个直观的比喻”Bulk RNA-seq 就像把一篮水果打成果昔后分析其成分——你知道整体的营养比例,但不知道每种水果各贡献了多少。scRNA-seq 则像是把水果切成小块逐一分析——你能知道每种水果的特征,甚至发现混入的稀有品种。
3. 核心技术组件
Section titled “3. 核心技术组件”- Cell Barcode
- 识别细胞身份的 DNA 标签。同一细胞产生的所有 Read 携带相同的 Barcode。
- UMI (Unique Molecular Identifier)
- 识别原始 RNA 分子的 DNA 标签。用于区分真实的分子扩增与 PCR 重复,是单细胞定量的基石。
- 液滴法(Droplet-based)
- 如 10x Genomics。通量极高(数万细胞),但通常只覆盖转录本的 3' 端。
- 平板法(Plate-based)
- 如 Smart-seq2。通量较低,但能实现全长转录本覆盖,灵敏度更高。
主流平台对比
Section titled “主流平台对比”| 特性 | 10x Genomics (液滴法) | Smart-seq2 (平板法) | Drop-seq | SPLiT-seq |
|---|---|---|---|---|
| 通量 | 500-10,000 细胞/样本 | 96-384 细胞/板 | 数千细胞 | 数万细胞 |
| 覆盖区域 | 3’ 端或 5’ 端 | 全长 | 3’ 端 | 3’ 端 |
| 灵敏度 | 中等 | 高 | 中低 | 中等 |
| 成本/细胞 | 低 | 高 | 低 | 极低 |
| UMI 支持 | 是 | 否 | 是 | 是 |
| 适用场景 | 大规模细胞图谱 | 等位基因特异性、可变剪接 | 成本敏感的大规模分析 | 固定组织/超大规模 |
技术原理:以 10x Genomics 为例
Section titled “技术原理:以 10x Genomics 为例”10x Chromium 系统的工作流程可以概括为以下步骤:
- 单细胞悬液制备:将组织解离为单细胞悬液。
- 微流控分装:在微流控芯片中,细胞与凝胶珠(Gel Bead)被包裹在油包水液滴中。凝胶珠上携带数百万条引物,每条引物包含相同的 Cell Barcode、随机 UMI 和 Poly(dT) 序列。
- 逆转录:在液滴内,mRNA 通过 Poly(A) 尾与引物结合,逆转录生成带有 Barcode 和 UMI 的 cDNA。
- 液滴破碎与扩增:破碎液滴,合并所有 cDNA,进行 PCR 扩增。
- 文库构建与测序:添加测序接头,在 Illumina 平台上进行高通量测序。
4. 输入与输出
Section titled “4. 输入与输出”- 原始数据:FASTQ 文件(通常包含 Read 1 的 Barcode+UMI 和 Read 2 的 cDNA 序列)。
- 参考基因组:包含基因注释的参考基因组索引(如 GRCh38 + GENCODE 注释)。
- 表达矩阵:基因 细胞的稀疏计数矩阵(通常为 Matrix Market 格式)。
- 细胞元数据:每个细胞的质控指标、聚类标签、降维坐标、注释信息。
- 基因元数据:每个基因在高变异基因选择中的状态、差异表达统计量。
典型数据规模
Section titled “典型数据规模”| 数据类型 | 典型规模 |
|---|---|
| 细胞数 | 1,000 - 100,000+ |
| 基因数 | 20,000 - 30,000 |
| 每细胞 UMI 数 | 1,000 - 50,000 |
| 每细胞检测基因数 | 500 - 5,000 |
| 矩阵稀疏度 | 90% - 98% |
5. 步骤总览
Section titled “5. 步骤总览”scRNA-seq 标准分析流程包含以下关键步骤:
- 预处理(Preprocessing):比对基因组,利用 Barcode 分配细胞,利用 UMI 去重。
- 质控(QC):过滤掉死细胞(线粒体基因占比过高)和空液滴(检测到的基因数太少)。
- 归一化(Normalization):消除细胞间的测序深度差异。
- 特征选择(Feature Selection):选择高变异基因用于降维。
- 降维(Dimensionality Reduction):先用 PCA 提取主成分,再用 UMAP/t-SNE 进行二维可视化。
- 聚类(Clustering):基于降维后的特征,利用 Leiden 或 Louvain 算法自动划分细胞群。
- 注释(Annotation):寻找每个群的差异表达基因(Marker Genes),结合生物学知识确定细胞类型。
- 下游分析:差异表达、轨迹推断、细胞通讯分析等。
6. 每步依赖与常见错误
Section titled “6. 每步依赖与常见错误”6.1 预处理
Section titled “6.1 预处理”依赖:参考基因组索引、FASTQ 文件。
常见错误:
- 使用了错误的参考基因组版本(如 GRCh37 而非 GRCh38),导致基因注释不匹配。
- 忽略了 Barcode 白名单过滤,保留了大量空液滴的 Reads。
- STARsolo 和 cellranger 的参数设置不一致,导致比对率差异。
6.2 质控
Section titled “6.2 质控”依赖:表达矩阵。
质控指标与典型阈值:
| 指标 | 含义 | 典型过滤阈值 |
|---|---|---|
| nGenes(检测到的基因数) | 细胞的信息丰富度 | 200 < nGenes < 6,000 |
| nUMI(总 UMI 计数) | 测序深度 | 视实验而定,通常 >500 |
| %mt(线粒体基因占比) | 细胞应激/死亡程度 | < 10-20% |
| %hb(血红蛋白基因占比) | 红细胞污染 | < 1-5%(血液样本) |
常见错误:
- 对所有样本使用相同的固定阈值,忽略了样本间的技术差异。应基于数据的分布(如 MAD 规则)设定动态阈值。
- 过度过滤导致丢失稀有细胞群。稀有细胞通常 UMI 较低,需要结合 marker 基因表达来确认。
- 忽略 Doublet(双联体)检测。参见 Doublet 检测。
6.3 归一化
Section titled “6.3 归一化”依赖:质控后的表达矩阵。
scRNA-seq 中最常用的归一化方法是CPM + 对数变换(Scanpy)或 SCTransform(Seurat):
CPM 归一化:
对数变换:
SCTransform 使用正则化负二项回归模型,同时完成归一化、方差稳定化和特征选择,是更现代的方法。
常见错误:
- 使用 TPM/FPKM 等适用于 Bulk RNA-seq 的归一化方法。单细胞数据因为捕获效率的细胞间差异,需要基于细胞总量的归一化。
- 未进行对数变换,导致高表达基因主导下游分析。
6.4 特征选择
Section titled “6.4 特征选择”依赖:归一化后的表达矩阵。
选择高变异基因(Highly Variable Genes, HVGs)是降维前的关键步骤。标准方法:
- 对每个基因计算其均值 和方差 。
- 对基因按均值分箱,在每个箱内标准化方差,得到标准化方差。
- 选择标准化方差最高的 1,000-3,000 个基因。
常见错误:
- 纳入线粒体基因、核糖体基因等非信息基因作为高变异基因。应在 HVG 选择前过滤这些基因。
- 选择过多的高变异基因(如 >5,000),将噪音引入降维空间。
6.5 降维与聚类
Section titled “6.5 降维与聚类”依赖:高变异基因子矩阵。
常见错误:
- PCA 使用了错误的主成分数量。参见 聚类与 UMAP 中的详细讨论。
- 直接在原始高维空间进行聚类而非 PCA 降维后。
- k-NN 图的 值选择不当。
6.6 注释
Section titled “6.6 注释”依赖:聚类结果、差异表达基因列表。
常见错误:
- 仅依赖单个 marker 基因注释细胞类型。应结合多个 marker 基因的表达模式进行综合判断。
- 忽略已知数据库(如 CellMarker、PanglaoDB)中的参考信息。
7. 统计学考量:Dropout 与稀疏性
Section titled “7. 统计学考量:Dropout 与稀疏性”由于单细胞中 RNA 含量极低,捕获过程具有高度的随机性。
Dropout 现象
Section titled “Dropout 现象”某个基因在细胞中确实表达,但因为没被捕获到而显示为 0。Dropout 率与基因表达量负相关:低表达基因的 Dropout 率可能高达 80% 以上。
后果:产生极度稀疏的表达矩阵(通常 90% 以上为 0),这要求下游算法(如轨迹推断)必须具有极强的统计鲁棒性。
Dropout 的数学解释
Section titled “Dropout 的数学解释”假设基因 在细胞 中的真实表达量为 个 mRNA 分子,捕获效率为 (通常 10-30%)。实际被捕获的分子数服从泊松分布:
当 很小时(如 ,),,即有 90% 的概率观测到 0。这就是 Dropout 的统计学根源。
| 策略 | 方法 | 效果 |
|---|---|---|
| Imputation | MAGIC, SAVER, scImpute | 填补零值,但可能引入假阳性 |
| 模型层面处理 | ZINB-WaVE, scVI | 在模型中显式建模 Dropout |
| 增大测序深度 | 提高每细胞 Reads 数 | 降低 Dropout 率,但成本增加 |
| 选择高捕获效率平台 | Smart-seq2 | 灵敏度更高,但通量低 |
8. 对应算法模块
Section titled “8. 对应算法模块”scRNA-seq 分析流程中涉及的核心算法模块及其对应页面:
| 分析步骤 | 核心算法 | 对应页面 |
|---|---|---|
| Barcode 分配 | 序列比对、白名单过滤 | 细胞 Barcode 与 UMI |
| UMI 去重 | 邻域聚类、方向性合并 | 细胞 Barcode 与 UMI |
| 降维 | PCA、UMAP | 聚类与 UMAP |
| 聚类 | Leiden/Louvain 图社区检测 | 聚类与 UMAP |
| 轨迹推断 | 伪时间、RNA Velocity | 轨迹推断 |
| Doublet 检测 | 人工模拟、k-NN 评分 | Doublet 检测 |
9. 注意事项
Section titled “9. 注意事项”实验设计阶段
Section titled “实验设计阶段”- 样本量规划:生物学重复比技术重复更重要。3 个以上生物学重复是最低要求。
- 细胞数目标:对于稀有细胞检测,需要足够的细胞数以保证统计功效。估计稀有细胞比例 ,检测 个稀有细胞所需的最低细胞数为 。
- 对照设计:应设置适当的对照组(如野生型 vs. 突变型),以便进行差异表达分析。
数据分析阶段
Section titled “数据分析阶段”- 批次效应:不同批次、不同实验日期的数据可能存在系统性差异。需要使用 Harmony、scVI、BBKNN 等工具进行批次校正。
- 数据整合:整合多个数据集时,应先进行批次校正,再进行联合聚类和注释。
- 可重复性:设置随机种子,记录所有参数和软件版本,确保分析可重复。
10. Worked Example:PBMC 数据分析
Section titled “10. Worked Example:PBMC 数据分析”外周血单核细胞(PBMC)是 scRNA-seq 最常见的验证数据集之一。
数据概况:
- 2,700 个 PBMC 细胞(来自 10x Genomics 官方教程数据)
- 13 个基因的原始表达矩阵
分析结果:
- 质控后保留约 2,600 个细胞(过滤掉 UMI <200 和线粒体比例 >5% 的细胞)
- Leiden 聚类(resolution=0.5)识别出 8 个 cluster
- 通过 marker 基因注释为:Naive CD4+ T、CD14+ Monocyte、B 细胞、CD8+ T 细胞、NK 细胞、FCGR3A+ Monocyte、Dendritic 细胞、Megakaryocyte
典型 marker 基因:
| 细胞类型 | 正向 marker 基因 |
|---|---|
| Naive CD4+ T 细胞 | IL7R, CCR7 |
| CD14+ Monocyte | CD14, LST1 |
| B 细胞 | MS4A1 (CD20) |
| CD8+ T 细胞 | CD8A, CD8B |
| NK 细胞 | NCAM1 (CD56), GNLY |
| Dendritic 细胞 | FCER1A, CST3 |
11. 后续阅读
Section titled “11. 后续阅读”完成 scRNA-seq 标准流程后,可以根据研究目标深入以下方向: