单细胞组学

快速概览

单细胞测序技术把'整体'打散成'个体'——让我们能在细胞分辨率下看到转录组、表观组甚至基因组的异质性。它揭示的是 bulk 平均无法呈现的细胞类型、发育轨迹和稀有亚群。

核心是从细胞分辨率理解生物系统，而不是组织或样本的平均值
细胞异质性是肿瘤、免疫、发育等领域的核心问题
分析流程从实验设计、数据预处理到聚类、降维、轨迹推断，每一步都有独特的挑战

单细胞组学的定义与范畴

什么是单细胞组学

单细胞组学（Single-cell Omics）是指对单个细胞进行分子测量的技术总称，包括：

scRNA-seq：单细胞转录组测序（最广泛应用）
scATAC-seq：单细胞染色质可及性测序
scDNA-seq：单细胞基因组测序
CITE-seq：单细胞表面蛋白与转录组联合测序
Multiome：同一细胞的多组学联合测量（如 RNA + ATAC）

与 Bulk 测序的本质区别

传统 bulk RNA-seq 测量的是细胞群体的平均表达谱：

$\bar{x}_g = \frac{1}{N} \sum_{i=1}^{N} x_{i,g}$

其中 $x_{i,g}$ 是细胞 $i$ 中基因 $g$ 的表达量， $N$ 是细胞总数。

局限性：

掩盖细胞间异质性
稀有细胞类型的信号被稀释
无法区分细胞状态差异

单细胞测序的核心价值：

每个细胞独立的表达谱测量
细胞类型和状态的精确区分
稀有群体的检测能力
细胞间关系的推断（发育轨迹、通讯网络）

单细胞技术的生物学应用

1. 细胞类型鉴定与图谱构建

识别组织中的细胞亚群，构建细胞类型参考图谱（Cell Atlas）。

代表性项目：

Human Cell Atlas（人类细胞图谱）
Mouse Cell Atlas（小鼠细胞图谱）
Tabula Muris（小鼠全身单细胞图谱）

2. 发育与分化研究

追踪细胞从前体到终末状态的分化过程：

胚胎发育中的谱系决定
干细胞向功能细胞的分化
组织再生中的细胞命运转换

3. 疾病机制研究

肿瘤异质性：识别肿瘤亚克隆、耐药细胞群
免疫反应：解析免疫细胞的激活状态和抗原特异性
神经退行性疾病：发现病变相关的细胞亚群

4. 细胞间通讯分析

通过配体-受体基因对的表达推断细胞间信号网络，理解：

免疫细胞与肿瘤细胞的相互作用
发育中的诱导信号
组织微环境的调控机制

为什么重要

细胞异质性

生物系统不是均一的：

肿瘤：同一肿瘤内包含不同克隆、不同状态的癌细胞，以及浸润的免疫细胞、成纤维细胞等；
大脑：神经元和胶质细胞有极其多样的亚型，每个亚型有不同的功能；
免疫系统：T 细胞、B 细胞、巨噬细胞等有复杂的激活状态和分化路径；
发育：胚胎发育过程中，细胞从全能到多能到终态，状态连续变化。

Bulk 平均会掩盖这些异质性，导致错误的生物学结论。

发育轨迹与分化

scRNA-seq 可以捕捉发育过程中的连续状态：

通过”伪时间”排序，重建分化路径；
识别分支点和终末状态；
发现新的中间状态或过渡细胞。

这对理解发育机制、干细胞研究和再生医学至关重要。

细胞通讯

不同细胞之间通过信号分子交流：

配体-受体分析可以推断细胞间的信号网络；
理解免疫细胞如何识别和攻击肿瘤；
揭示器官发育中的细胞间相互作用。

核心技术挑战

挑战一：数据稀疏性（Dropout）

单细胞表达矩阵极度稀疏，零值比例常超过 90%：

成因：

技术性 dropout：低丰度转录本未被捕获（mRNA 捕获效率通常 5–20%）
生物性不表达：基因在该细胞中确实不转录

影响：

传统相关性分析和距离度量失效
差异表达分析需零膨胀模型
可视化时难以区分技术性 vs. 生物性零值

挑战二：细胞捕获偏差

捕获效率差异：

大细胞 vs. 小细胞的捕获概率不同
脆性细胞（如神经元）可能破裂丢失
某些细胞类型在特定条件下更易粘附

后果：

细胞类型比例失真（不代表真实组织组成）
特定群体系统性缺失
需通过实验设计和计算校正缓解

挑战三：批次效应（Batch Effects）

不同实验批次、平台或操作者引入系统性技术差异：

表现：

同一细胞类型在不同批次中聚类分离
批次效应可能掩盖或模拟生物学差异

平衡难题：

校正不足：批次效应残留，虚假差异
过度校正：抹消真实的生物学信号

常用方法：Harmony、scVI、Seurat CCA、BBKNN

挑战四：高维性与计算规模

维度： $G \times N$ 矩阵（ $G \approx 20{,}000$ 基因， $N$ 可达 $10^6$ 细胞）

计算挑战：

距离矩阵计算 $O(N^2)$ 不可行
需要高效的稀疏矩阵算法
大规模数据需分布式计算

标准分析流程

第一阶段：实验设计与数据生成

设计考虑：

因素	决策要点
细胞数量	平衡统计效力与成本，通常 1,000–10,000 细胞
捕获平台	10x Genomics（高通量）、Smart-seq2（全长转录本）
批次设计	技术重复验证重现性，生物学重复捕获个体差异
混池策略	多样本混池可结合基因型区分，但增加 doublet 风险

第二阶段：原始数据处理

流程链路：

\text{FASTQ} \xrightarrow{\text{alignment}} \text{BAM} \xrightarrow{\text{quantification}} \text{Counts} \xrightarrow{\text{QC}} \text{Filtered Matrix}$$ 关键步骤： 1. **Read 比对**：STARsolo、Cell Ranger 将 reads 比对到参考基因组 2. **Barcode/UMI 处理**：纠错、去重、生成 count matrix 3. **质量控制**：过滤低质量细胞（低基因数、高线粒体比例） 4. **归一化**：消除测序深度和细胞大小差异（log-normalization、CPM） ### 第三阶段：降维与聚类 典型流程可写作：`High-dim Counts → Feature Selection (HVG) → Low-dim Embedding (PCA) → Graph (k-NN) → Clusters (Leiden)`。 关键步骤： 1. **高变基因选择**：保留细胞间变异最大的 2,000 基因 2. **PCA 降维**：压缩至 30–50 个主成分 3. **k-NN 图构建**：基于 PCA 空间构建细胞邻域图 4. **图聚类**：Leiden/Louvain 算法识别细胞社区 ### 第四阶段：可视化与注释 1. **非线性降维**：UMAP 或 t-SNE 二维可视化 2. **细胞类型注释**：结合标记基因、参考数据库、自动注释工具 3. **标记基因鉴定**：差异表达分析识别 cluster 特异性基因 ### 第五阶段：高级分析（可选） | 分析类型 | 目的 | 工具 | |---------|------|------| | **轨迹推断** | 重建分化路径 | Monocle 3、Slingshot、PAGA | | **RNA velocity** | 推断动态变化方向 | scVelo | | **细胞通讯** | 推断配体-受体信号网络 | CellChat、NicheNet | | **批次整合** | 校正多批次数据 | Harmony、scVI | | **差异表达** | 识别条件特异性基因 | MAST、Wilcoxon rank-sum | ## 输入输出 ### 输入 - **FASTQ 文件**：测序原始数据； - **参考基因组**：用于比对； - **样本元数据**：实验条件、批次信息等。 ### 输出 - **Count matrix**：基因 × 细胞的表达矩阵； - **细胞聚类结果**：每个细胞的簇标签； - **降维坐标**：PCA、UMAP 坐标； - **细胞类型注释**：每个细胞的类型标签； - **差异表达基因列表**； - **可视化图表**：聚类图、热图、轨迹图等。 <NoteCard variant="pitfalls" pitfalls={[ 'Dropout = 表达量为 0：', '不对。单细胞数据中大量的 0 值很多是技术性 dropout（未检测到），而不是真正的无表达。需要考虑零膨胀和归一化。', '细胞聚类结果就是生物学真相：', '不对。聚类结果高度依赖于参数选择（如分辨率、邻居数），需要结合标记基因和生物学知识验证。', 'UMAP/t-SNE 距离有生物学意义：', '不对。UMAP/t-SNE 是非线性降维方法，主要用于可视化，距离和密度不一定反映真实的生物学关系。' ]} /> ## 推荐阅读顺序 1. [scRNA-seq 总览](./scrna-seq-overview/) 2. [细胞 Barcode 与 UMI](./cell-barcode-umi/) 3. [聚类与 UMAP 降维](./clustering-and-umap/) 4. [轨迹推断](./trajectory-analysis/) ## 子主题导航 <LinkGrid items={[ { title: 'scRNA-seq 总览', to: '/wiki-bioinfo/single-cell/scrna-seq-overview', description: '测序原理、实验流程与标准分析管道概述。', }, { title: '细胞 Barcode 与 UMI', to: '/wiki-bioinfo/single-cell/cell-barcode-umi', description: 'Barcode 去重、UMI 计数与 count matrix 的生成。', }, { title: '聚类与 UMAP 降维', to: '/wiki-bioinfo/single-cell/clustering-and-umap', description: '主成分分析、Leiden/Louvain 聚类与 UMAP 可视化。', }, { title: '轨迹推断', to: '/wiki-bioinfo/single-cell/trajectory-analysis', description: '伪时间、RNA velocity 与细胞分化路径分析。', }, ]} variant="navigation" /> ## 与其他板块的连接 - 数据预处理依赖 [测序质控](../workflows/qc-overview/)； - 差异表达分析参见 [转录组章节](../transcriptomics/differential-expression/)； - 与组织定位结合可继续看 [空间转录组](../spatial/index/)； - 聚类算法基础见 [系统发育与聚类](../phylogeny/hierarchical-clustering/)。