跳转到内容

单细胞组学

快速概览

单细胞测序技术把'整体'打散成'个体'——让我们能在细胞分辨率下看到转录组、表观组甚至基因组的异质性。它揭示的是 bulk 平均无法呈现的细胞类型、发育轨迹和稀有亚群。

  • 核心是从细胞分辨率理解生物系统,而不是组织或样本的平均值
  • 细胞异质性是肿瘤、免疫、发育等领域的核心问题
  • 分析流程从实验设计、数据预处理到聚类、降维、轨迹推断,每一步都有独特的挑战
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

单细胞组学(Single-cell Omics)是指对单个细胞进行分子测量的技术总称,包括:

  • scRNA-seq:单细胞转录组测序(最广泛应用)
  • scATAC-seq:单细胞染色质可及性测序
  • scDNA-seq:单细胞基因组测序
  • CITE-seq:单细胞表面蛋白与转录组联合测序
  • Multiome:同一细胞的多组学联合测量(如 RNA + ATAC)

传统 bulk RNA-seq 测量的是细胞群体的平均表达谱

xˉg=1Ni=1Nxi,g\bar{x}_g = \frac{1}{N} \sum_{i=1}^{N} x_{i,g}

其中 xi,gx_{i,g} 是细胞 ii 中基因 gg 的表达量,NN 是细胞总数。

局限性

  • 掩盖细胞间异质性
  • 稀有细胞类型的信号被稀释
  • 无法区分细胞状态差异

单细胞测序的核心价值

  • 每个细胞独立的表达谱测量
  • 细胞类型和状态的精确区分
  • 稀有群体的检测能力
  • 细胞间关系的推断(发育轨迹、通讯网络)

识别组织中的细胞亚群,构建细胞类型参考图谱(Cell Atlas)。

代表性项目

  • Human Cell Atlas(人类细胞图谱)
  • Mouse Cell Atlas(小鼠细胞图谱)
  • Tabula Muris(小鼠全身单细胞图谱)

追踪细胞从前体到终末状态的分化过程:

  • 胚胎发育中的谱系决定
  • 干细胞向功能细胞的分化
  • 组织再生中的细胞命运转换
  • 肿瘤异质性:识别肿瘤亚克隆、耐药细胞群
  • 免疫反应:解析免疫细胞的激活状态和抗原特异性
  • 神经退行性疾病:发现病变相关的细胞亚群

通过配体-受体基因对的表达推断细胞间信号网络,理解:

  • 免疫细胞与肿瘤细胞的相互作用
  • 发育中的诱导信号
  • 组织微环境的调控机制

生物系统不是均一的:

  • 肿瘤:同一肿瘤内包含不同克隆、不同状态的癌细胞,以及浸润的免疫细胞、成纤维细胞等;
  • 大脑:神经元和胶质细胞有极其多样的亚型,每个亚型有不同的功能;
  • 免疫系统:T 细胞、B 细胞、巨噬细胞等有复杂的激活状态和分化路径;
  • 发育:胚胎发育过程中,细胞从全能到多能到终态,状态连续变化。

Bulk 平均会掩盖这些异质性,导致错误的生物学结论。

scRNA-seq 可以捕捉发育过程中的连续状态:

  • 通过”伪时间”排序,重建分化路径;
  • 识别分支点和终末状态;
  • 发现新的中间状态或过渡细胞。

这对理解发育机制、干细胞研究和再生医学至关重要。

不同细胞之间通过信号分子交流:

  • 配体-受体分析可以推断细胞间的信号网络;
  • 理解免疫细胞如何识别和攻击肿瘤;
  • 揭示器官发育中的细胞间相互作用。

单细胞表达矩阵极度稀疏,零值比例常超过 90%:

成因

  • 技术性 dropout:低丰度转录本未被捕获(mRNA 捕获效率通常 5–20%)
  • 生物性不表达:基因在该细胞中确实不转录

影响

  • 传统相关性分析和距离度量失效
  • 差异表达分析需零膨胀模型
  • 可视化时难以区分技术性 vs. 生物性零值

捕获效率差异

  • 大细胞 vs. 小细胞的捕获概率不同
  • 脆性细胞(如神经元)可能破裂丢失
  • 某些细胞类型在特定条件下更易粘附

后果

  • 细胞类型比例失真(不代表真实组织组成)
  • 特定群体系统性缺失
  • 需通过实验设计和计算校正缓解

挑战三:批次效应(Batch Effects)

Section titled “挑战三:批次效应(Batch Effects)”

不同实验批次、平台或操作者引入系统性技术差异:

表现

  • 同一细胞类型在不同批次中聚类分离
  • 批次效应可能掩盖或模拟生物学差异

平衡难题

  • 校正不足:批次效应残留,虚假差异
  • 过度校正:抹消真实的生物学信号

常用方法:Harmony、scVI、Seurat CCA、BBKNN

维度G×NG \times N 矩阵(G20,000G \approx 20{,}000 基因,NN 可达 10610^6 细胞)

计算挑战

  • 距离矩阵计算 O(N2)O(N^2) 不可行
  • 需要高效的稀疏矩阵算法
  • 大规模数据需分布式计算

第一阶段:实验设计与数据生成

Section titled “第一阶段:实验设计与数据生成”

设计考虑

因素决策要点
细胞数量平衡统计效力与成本,通常 1,000–10,000 细胞
捕获平台10x Genomics(高通量)、Smart-seq2(全长转录本)
批次设计技术重复验证重现性,生物学重复捕获个体差异
混池策略多样本混池可结合基因型区分,但增加 doublet 风险

流程链路

\text{FASTQ} \xrightarrow{\text{比对}} \text{BAM} \xrightarrow{\text{定量}} \text{Counts} \xrightarrow{\text{QC}} \text{Filtered Matrix}$$ 关键步骤: 1. **Read 比对**:STARsolo、Cell Ranger 将 reads 比对到参考基因组 2. **Barcode/UMI 处理**:纠错、去重、生成 count matrix 3. **质量控制**:过滤低质量细胞(低基因数、高线粒体比例) 4. **归一化**:消除测序深度和细胞大小差异(log-normalization、CPM) ### 第三阶段:降维与聚类 典型流程可写作:`High-dim Counts → Feature Selection (HVG) → Low-dim Embedding (PCA) → Graph (k-NN) → Clusters (Leiden)`。 关键步骤: 1. **高变基因选择**:保留细胞间变异最大的 2,000 基因 2. **PCA 降维**:压缩至 30–50 个主成分 3. **k-NN 图构建**:基于 PCA 空间构建细胞邻域图 4. **图聚类**:Leiden/Louvain 算法识别细胞社区 ### 第四阶段:可视化与注释 1. **非线性降维**:UMAP 或 t-SNE 二维可视化 2. **细胞类型注释**:结合标记基因、参考数据库、自动注释工具 3. **标记基因鉴定**:差异表达分析识别 cluster 特异性基因 ### 第五阶段:高级分析(可选) | 分析类型 | 目的 | 工具 | |---------|------|------| | **轨迹推断** | 重建分化路径 | Monocle 3、Slingshot、PAGA | | **RNA velocity** | 推断动态变化方向 | scVelo | | **细胞通讯** | 推断配体-受体信号网络 | CellChat、NicheNet | | **批次整合** | 校正多批次数据 | Harmony、scVI | | **差异表达** | 识别条件特异性基因 | MAST、Wilcoxon rank-sum | ## 输入输出 ### 输入 - **FASTQ 文件**:测序原始数据; - **参考基因组**:用于比对; - **样本元数据**:实验条件、批次信息等。 ### 输出 - **Count matrix**:基因 × 细胞的表达矩阵; - **细胞聚类结果**:每个细胞的簇标签; - **降维坐标**:PCA、UMAP 坐标; - **细胞类型注释**:每个细胞的类型标签; - **差异表达基因列表**; - **可视化图表**:聚类图、热图、轨迹图等。 <PitfallsBox pitfalls={[ 'Dropout = 表达量为 0:', '不对。单细胞数据中大量的 0 值很多是技术性 dropout(未检测到),而不是真正的无表达。需要考虑零膨胀和归一化。', '细胞聚类结果就是生物学真相:', '不对。聚类结果高度依赖于参数选择(如分辨率、邻居数),需要结合标记基因和生物学知识验证。', 'UMAP/t-SNE 距离有生物学意义:', '不对。UMAP/t-SNE 是非线性降维方法,主要用于可视化,距离和密度不一定反映真实的生物学关系。' ]} /> ## 推荐阅读顺序 1. [scRNA-seq 总览](./scrna-seq-overview.mdx) 2. [细胞 Barcode 与 UMI](./cell-barcode-umi.mdx) 3. [聚类与 UMAP 降维](./clustering-and-umap.mdx) 4. [轨迹推断](./trajectory-analysis.mdx) ## 子主题导航 <SectionNavigator items={[ { title: 'scRNA-seq 总览', to: '/wiki-bioinfo/single-cell/scrna-seq-overview', description: '测序原理、实验流程与标准分析管道概述。', }, { title: '细胞 Barcode 与 UMI', to: '/wiki-bioinfo/single-cell/cell-barcode-umi', description: 'Barcode 去重、UMI 计数与 count matrix 的生成。', }, { title: '聚类与 UMAP 降维', to: '/wiki-bioinfo/single-cell/clustering-and-umap', description: '主成分分析、Leiden/Louvain 聚类与 UMAP 可视化。', }, { title: '轨迹推断', to: '/wiki-bioinfo/single-cell/trajectory-analysis', description: '伪时间、RNA velocity 与细胞分化路径分析。', }, ]} /> ## 与其他板块的连接 - 数据预处理依赖 [测序质控](../workflows/qc-overview.md); - 差异表达分析参见 [转录组章节](../transcriptomics/differential-expression.mdx); - 与组织定位结合可继续看 [空间转录组](../spatial/index.mdx); - 聚类算法基础见 [系统发育与聚类](../phylogeny/hierarchical-clustering.mdx)。