跳转到内容

scRNA-seq 总览

快速概览

scRNA-seq 是在单细胞分辨率下研究基因表达的技术。它打破了传统 Bulk 测序的「平均值」迷思,允许我们识别稀有细胞群、追踪发育轨迹并解析组织异质性。

  • 理解 scRNA-seq 与 Bulk RNA-seq 的本质差异:从"果昔"到"水果切盘"
  • 掌握主流平台(10x Genomics, Smart-seq2)的捕获原理与优劣
  • 掌握 scRNA-seq 标准分析管线:质控、归一化、降维、聚类
  • 理解 UMI 统计原理如何校正 PCR 扩增偏差
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

scRNA-seq 分析流程的核心目标是:将原始测序数据转化为可解释的细胞图谱。具体包括:

  • 从混合细胞群体中识别不同的细胞类型和亚群。
  • 发现稀有细胞群体(如干细胞、过渡态细胞)。
  • 追踪细胞分化的动态过程(轨迹推断)。
  • 量化细胞间的基因表达差异(差异表达分析)。
  • 整合多样本数据以进行跨条件比较。

Bulk RNA-seq 的局限:测量的是成千上万个细胞的平均表达水平。这会掩盖:

  • 稀有细胞:如干细胞或免疫亚群。
  • 异质性:即便外观相同的细胞,表达状态也可能完全不同。
  • 动态过程:如细胞分化的中间态。

scRNA-seq 的方案:为每个细胞打上唯一的 Cell Barcode,从而在合并测序后能通过计算手段将 Reads 重新分配回原始细胞。

Bulk RNA-seq 就像把一篮水果打成果昔后分析其成分——你知道整体的营养比例,但不知道每种水果各贡献了多少。scRNA-seq 则像是把水果切成小块逐一分析——你能知道每种水果的特征,甚至发现混入的稀有品种。

Cell Barcode
识别细胞身份的 DNA 标签。同一细胞产生的所有 Read 携带相同的 Barcode。
UMI (Unique Molecular Identifier)
识别原始 RNA 分子的 DNA 标签。用于区分真实的分子扩增与 PCR 重复,是单细胞定量的基石。
液滴法(Droplet-based)
如 10x Genomics。通量极高(数万细胞),但通常只覆盖转录本的 3' 端。
平板法(Plate-based)
如 Smart-seq2。通量较低,但能实现全长转录本覆盖,灵敏度更高。
特性10x Genomics (液滴法)Smart-seq2 (平板法)Drop-seqSPLiT-seq
通量500-10,000 细胞/样本96-384 细胞/板数千细胞数万细胞
覆盖区域3’ 端或 5’ 端全长3’ 端3’ 端
灵敏度中等中低中等
成本/细胞极低
UMI 支持
适用场景大规模细胞图谱等位基因特异性、可变剪接成本敏感的大规模分析固定组织/超大规模

10x Chromium 系统的工作流程可以概括为以下步骤:

  1. 单细胞悬液制备:将组织解离为单细胞悬液。
  2. 微流控分装:在微流控芯片中,细胞与凝胶珠(Gel Bead)被包裹在油包水液滴中。凝胶珠上携带数百万条引物,每条引物包含相同的 Cell Barcode、随机 UMI 和 Poly(dT) 序列。
  3. 逆转录:在液滴内,mRNA 通过 Poly(A) 尾与引物结合,逆转录生成带有 Barcode 和 UMI 的 cDNA。
  4. 液滴破碎与扩增:破碎液滴,合并所有 cDNA,进行 PCR 扩增。
  5. 文库构建与测序:添加测序接头,在 Illumina 平台上进行高通量测序。
  • 原始数据:FASTQ 文件(通常包含 Read 1 的 Barcode+UMI 和 Read 2 的 cDNA 序列)。
  • 参考基因组:包含基因注释的参考基因组索引(如 GRCh38 + GENCODE 注释)。
  • 表达矩阵:基因 ×\times 细胞的稀疏计数矩阵(通常为 Matrix Market 格式)。
  • 细胞元数据:每个细胞的质控指标、聚类标签、降维坐标、注释信息。
  • 基因元数据:每个基因在高变异基因选择中的状态、差异表达统计量。
数据类型典型规模
细胞数1,000 - 100,000+
基因数20,000 - 30,000
每细胞 UMI 数1,000 - 50,000
每细胞检测基因数500 - 5,000
矩阵稀疏度90% - 98%
scRNA-seq 标准分析流程:从单细胞捕获到降维聚类的完整管线
scRNA-seq 标准分析流程总览

scRNA-seq 标准分析流程包含以下关键步骤:

  1. 预处理(Preprocessing):比对基因组,利用 Barcode 分配细胞,利用 UMI 去重。
  2. 质控(QC):过滤掉死细胞(线粒体基因占比过高)和空液滴(检测到的基因数太少)。
  3. 归一化(Normalization):消除细胞间的测序深度差异。
  4. 特征选择(Feature Selection):选择高变异基因用于降维。
  5. 降维(Dimensionality Reduction):先用 PCA 提取主成分,再用 UMAP/t-SNE 进行二维可视化。
  6. 聚类(Clustering):基于降维后的特征,利用 LeidenLouvain 算法自动划分细胞群。
  7. 注释(Annotation):寻找每个群的差异表达基因(Marker Genes),结合生物学知识确定细胞类型。
  8. 下游分析:差异表达、轨迹推断、细胞通讯分析等。

依赖:参考基因组索引、FASTQ 文件。

常见错误

  • 使用了错误的参考基因组版本(如 GRCh37 而非 GRCh38),导致基因注释不匹配。
  • 忽略了 Barcode 白名单过滤,保留了大量空液滴的 Reads。
  • STARsolo 和 cellranger 的参数设置不一致,导致比对率差异。

依赖:表达矩阵。

质控指标与典型阈值

指标含义典型过滤阈值
nGenes(检测到的基因数)细胞的信息丰富度200 < nGenes < 6,000
nUMI(总 UMI 计数)测序深度视实验而定,通常 >500
%mt(线粒体基因占比)细胞应激/死亡程度< 10-20%
%hb(血红蛋白基因占比)红细胞污染< 1-5%(血液样本)

常见错误

  • 对所有样本使用相同的固定阈值,忽略了样本间的技术差异。应基于数据的分布(如 MAD 规则)设定动态阈值。
  • 过度过滤导致丢失稀有细胞群。稀有细胞通常 UMI 较低,需要结合 marker 基因表达来确认。
  • 忽略 Doublet(双联体)检测。参见 Doublet 检测

依赖:质控后的表达矩阵。

scRNA-seq 中最常用的归一化方法是CPM + 对数变换(Scanpy)或 SCTransform(Seurat):

CPM 归一化

xijnorm=xijgxig×104x_{ij}^{\text{norm}} = \frac{x_{ij}}{\sum_g x_{ig}} \times 10^4

对数变换

xijlog=log1(xijnorm+1)x_{ij}^{\log} = \log_1(x_{ij}^{\text{norm}} + 1)

SCTransform 使用正则化负二项回归模型,同时完成归一化、方差稳定化和特征选择,是更现代的方法。

常见错误

  • 使用 TPM/FPKM 等适用于 Bulk RNA-seq 的归一化方法。单细胞数据因为捕获效率的细胞间差异,需要基于细胞总量的归一化。
  • 未进行对数变换,导致高表达基因主导下游分析。

依赖:归一化后的表达矩阵。

选择高变异基因(Highly Variable Genes, HVGs)是降维前的关键步骤。标准方法:

  1. 对每个基因计算其均值 μg\mu_g 和方差 σg2\sigma_g^2
  2. 对基因按均值分箱,在每个箱内标准化方差,得到标准化方差
  3. 选择标准化方差最高的 1,000-3,000 个基因。

常见错误

  • 纳入线粒体基因、核糖体基因等非信息基因作为高变异基因。应在 HVG 选择前过滤这些基因。
  • 选择过多的高变异基因(如 >5,000),将噪音引入降维空间。

依赖:高变异基因子矩阵。

常见错误

  • PCA 使用了错误的主成分数量。参见 聚类与 UMAP 中的详细讨论。
  • 直接在原始高维空间进行聚类而非 PCA 降维后。
  • k-NN 图的 kk 值选择不当。

依赖:聚类结果、差异表达基因列表。

常见错误

  • 仅依赖单个 marker 基因注释细胞类型。应结合多个 marker 基因的表达模式进行综合判断。
  • 忽略已知数据库(如 CellMarker、PanglaoDB)中的参考信息。

由于单细胞中 RNA 含量极低,捕获过程具有高度的随机性。

某个基因在细胞中确实表达,但因为没被捕获到而显示为 0。Dropout 率与基因表达量负相关:低表达基因的 Dropout 率可能高达 80% 以上。

后果:产生极度稀疏的表达矩阵(通常 90% 以上为 0),这要求下游算法(如轨迹推断)必须具有极强的统计鲁棒性。

假设基因 gg 在细胞 cc 中的真实表达量为 λgc\lambda_{gc} 个 mRNA 分子,捕获效率为 ϕ\phi(通常 10-30%)。实际被捕获的分子数服从泊松分布:

ngcPoisson(ϕλgc)n_{gc} \sim \text{Poisson}(\phi \cdot \lambda_{gc})

ϕλgc\phi \cdot \lambda_{gc} 很小时(如 λgc=1\lambda_{gc} = 1ϕ=0.1\phi = 0.1),P(ngc=0)=e0.10.90P(n_{gc} = 0) = e^{-0.1} \approx 0.90,即有 90% 的概率观测到 0。这就是 Dropout 的统计学根源。

策略方法效果
ImputationMAGIC, SAVER, scImpute填补零值,但可能引入假阳性
模型层面处理ZINB-WaVE, scVI在模型中显式建模 Dropout
增大测序深度提高每细胞 Reads 数降低 Dropout 率,但成本增加
选择高捕获效率平台Smart-seq2灵敏度更高,但通量低

scRNA-seq 分析流程中涉及的核心算法模块及其对应页面:

分析步骤核心算法对应页面
Barcode 分配序列比对、白名单过滤细胞 Barcode 与 UMI
UMI 去重邻域聚类、方向性合并细胞 Barcode 与 UMI
降维PCA、UMAP聚类与 UMAP
聚类Leiden/Louvain 图社区检测聚类与 UMAP
轨迹推断伪时间、RNA Velocity轨迹推断
Doublet 检测人工模拟、k-NN 评分Doublet 检测
  • 样本量规划:生物学重复比技术重复更重要。3 个以上生物学重复是最低要求。
  • 细胞数目标:对于稀有细胞检测,需要足够的细胞数以保证统计功效。估计稀有细胞比例 pp,检测 kk 个稀有细胞所需的最低细胞数为 Nk/pN \approx k / p
  • 对照设计:应设置适当的对照组(如野生型 vs. 突变型),以便进行差异表达分析。
  • 批次效应:不同批次、不同实验日期的数据可能存在系统性差异。需要使用 Harmony、scVI、BBKNN 等工具进行批次校正。
  • 数据整合:整合多个数据集时,应先进行批次校正,再进行联合聚类和注释。
  • 可重复性:设置随机种子,记录所有参数和软件版本,确保分析可重复。

外周血单核细胞(PBMC)是 scRNA-seq 最常见的验证数据集之一。

数据概况

  • 2,700 个 PBMC 细胞(来自 10x Genomics 官方教程数据)
  • 13 个基因的原始表达矩阵

分析结果

  • 质控后保留约 2,600 个细胞(过滤掉 UMI <200 和线粒体比例 >5% 的细胞)
  • Leiden 聚类(resolution=0.5)识别出 8 个 cluster
  • 通过 marker 基因注释为:Naive CD4+ T、CD14+ Monocyte、B 细胞、CD8+ T 细胞、NK 细胞、FCGR3A+ Monocyte、Dendritic 细胞、Megakaryocyte

典型 marker 基因

细胞类型正向 marker 基因
Naive CD4+ T 细胞IL7R, CCR7
CD14+ MonocyteCD14, LST1
B 细胞MS4A1 (CD20)
CD8+ T 细胞CD8A, CD8B
NK 细胞NCAM1 (CD56), GNLY
Dendritic 细胞FCER1A, CST3

完成 scRNA-seq 标准流程后,可以根据研究目标深入以下方向:

  • 轨迹推断:追踪细胞分化的动态过程。参见 轨迹推断
  • 细胞通讯分析:推断细胞间的配体-受体互作(如 CellChat、NicheNet)。
  • 空间转录组整合:将 scRNA-seq 数据映射到空间坐标。参见 空间去卷积
  • 多组学整合:scATAC-seq + scRNA-seq 联合分析(如 Signac、ArchR)。
  • 大规模整合分析:如 Human Cell Atlas、Tabula Muris 等图谱级项目。