单细胞组学
单细胞测序技术把'整体'打散成'个体'——让我们能在细胞分辨率下看到转录组、表观组甚至基因组的异质性。它揭示的是 bulk 平均无法呈现的细胞类型、发育轨迹和稀有亚群。
- 核心是从细胞分辨率理解生物系统,而不是组织或样本的平均值
- 细胞异质性是肿瘤、免疫、发育等领域的核心问题
- 分析流程从实验设计、数据预处理到聚类、降维、轨迹推断,每一步都有独特的挑战
单细胞组学的定义与范畴
Section titled “单细胞组学的定义与范畴”什么是单细胞组学
Section titled “什么是单细胞组学”单细胞组学(Single-cell Omics)是指对单个细胞进行分子测量的技术总称,包括:
- scRNA-seq:单细胞转录组测序(最广泛应用)
- scATAC-seq:单细胞染色质可及性测序
- scDNA-seq:单细胞基因组测序
- CITE-seq:单细胞表面蛋白与转录组联合测序
- Multiome:同一细胞的多组学联合测量(如 RNA + ATAC)
与 Bulk 测序的本质区别
Section titled “与 Bulk 测序的本质区别”传统 bulk RNA-seq 测量的是细胞群体的平均表达谱:
其中 是细胞 中基因 的表达量, 是细胞总数。
局限性:
- 掩盖细胞间异质性
- 稀有细胞类型的信号被稀释
- 无法区分细胞状态差异
单细胞测序的核心价值:
- 每个细胞独立的表达谱测量
- 细胞类型和状态的精确区分
- 稀有群体的检测能力
- 细胞间关系的推断(发育轨迹、通讯网络)
单细胞技术的生物学应用
Section titled “单细胞技术的生物学应用”1. 细胞类型鉴定与图谱构建
Section titled “1. 细胞类型鉴定与图谱构建”识别组织中的细胞亚群,构建细胞类型参考图谱(Cell Atlas)。
代表性项目:
- Human Cell Atlas(人类细胞图谱)
- Mouse Cell Atlas(小鼠细胞图谱)
- Tabula Muris(小鼠全身单细胞图谱)
2. 发育与分化研究
Section titled “2. 发育与分化研究”追踪细胞从前体到终末状态的分化过程:
- 胚胎发育中的谱系决定
- 干细胞向功能细胞的分化
- 组织再生中的细胞命运转换
3. 疾病机制研究
Section titled “3. 疾病机制研究”- 肿瘤异质性:识别肿瘤亚克隆、耐药细胞群
- 免疫反应:解析免疫细胞的激活状态和抗原特异性
- 神经退行性疾病:发现病变相关的细胞亚群
4. 细胞间通讯分析
Section titled “4. 细胞间通讯分析”通过配体-受体基因对的表达推断细胞间信号网络,理解:
- 免疫细胞与肿瘤细胞的相互作用
- 发育中的诱导信号
- 组织微环境的调控机制
生物系统不是均一的:
- 肿瘤:同一肿瘤内包含不同克隆、不同状态的癌细胞,以及浸润的免疫细胞、成纤维细胞等;
- 大脑:神经元和胶质细胞有极其多样的亚型,每个亚型有不同的功能;
- 免疫系统:T 细胞、B 细胞、巨噬细胞等有复杂的激活状态和分化路径;
- 发育:胚胎发育过程中,细胞从全能到多能到终态,状态连续变化。
Bulk 平均会掩盖这些异质性,导致错误的生物学结论。
发育轨迹与分化
Section titled “发育轨迹与分化”scRNA-seq 可以捕捉发育过程中的连续状态:
- 通过”伪时间”排序,重建分化路径;
- 识别分支点和终末状态;
- 发现新的中间状态或过渡细胞。
这对理解发育机制、干细胞研究和再生医学至关重要。
不同细胞之间通过信号分子交流:
- 配体-受体分析可以推断细胞间的信号网络;
- 理解免疫细胞如何识别和攻击肿瘤;
- 揭示器官发育中的细胞间相互作用。
核心技术挑战
Section titled “核心技术挑战”挑战一:数据稀疏性(Dropout)
Section titled “挑战一:数据稀疏性(Dropout)”单细胞表达矩阵极度稀疏,零值比例常超过 90%:
成因:
- 技术性 dropout:低丰度转录本未被捕获(mRNA 捕获效率通常 5–20%)
- 生物性不表达:基因在该细胞中确实不转录
影响:
- 传统相关性分析和距离度量失效
- 差异表达分析需零膨胀模型
- 可视化时难以区分技术性 vs. 生物性零值
挑战二:细胞捕获偏差
Section titled “挑战二:细胞捕获偏差”捕获效率差异:
- 大细胞 vs. 小细胞的捕获概率不同
- 脆性细胞(如神经元)可能破裂丢失
- 某些细胞类型在特定条件下更易粘附
后果:
- 细胞类型比例失真(不代表真实组织组成)
- 特定群体系统性缺失
- 需通过实验设计和计算校正缓解
挑战三:批次效应(Batch Effects)
Section titled “挑战三:批次效应(Batch Effects)”不同实验批次、平台或操作者引入系统性技术差异:
表现:
- 同一细胞类型在不同批次中聚类分离
- 批次效应可能掩盖或模拟生物学差异
平衡难题:
- 校正不足:批次效应残留,虚假差异
- 过度校正:抹消真实的生物学信号
常用方法:Harmony、scVI、Seurat CCA、BBKNN
挑战四:高维性与计算规模
Section titled “挑战四:高维性与计算规模”维度: 矩阵( 基因, 可达 细胞)
计算挑战:
- 距离矩阵计算 不可行
- 需要高效的稀疏矩阵算法
- 大规模数据需分布式计算
标准分析流程
Section titled “标准分析流程”第一阶段:实验设计与数据生成
Section titled “第一阶段:实验设计与数据生成”设计考虑:
| 因素 | 决策要点 |
|---|---|
| 细胞数量 | 平衡统计效力与成本,通常 1,000–10,000 细胞 |
| 捕获平台 | 10x Genomics(高通量)、Smart-seq2(全长转录本) |
| 批次设计 | 技术重复验证重现性,生物学重复捕获个体差异 |
| 混池策略 | 多样本混池可结合基因型区分,但增加 doublet 风险 |
第二阶段:原始数据处理
Section titled “第二阶段:原始数据处理”流程链路:
\text{FASTQ} \xrightarrow{\text{比对}} \text{BAM} \xrightarrow{\text{定量}} \text{Counts} \xrightarrow{\text{QC}} \text{Filtered Matrix}$$ 关键步骤: 1. **Read 比对**:STARsolo、Cell Ranger 将 reads 比对到参考基因组 2. **Barcode/UMI 处理**:纠错、去重、生成 count matrix 3. **质量控制**:过滤低质量细胞(低基因数、高线粒体比例) 4. **归一化**:消除测序深度和细胞大小差异(log-normalization、CPM) ### 第三阶段:降维与聚类 典型流程可写作:`High-dim Counts → Feature Selection (HVG) → Low-dim Embedding (PCA) → Graph (k-NN) → Clusters (Leiden)`。 关键步骤: 1. **高变基因选择**:保留细胞间变异最大的 2,000 基因 2. **PCA 降维**:压缩至 30–50 个主成分 3. **k-NN 图构建**:基于 PCA 空间构建细胞邻域图 4. **图聚类**:Leiden/Louvain 算法识别细胞社区 ### 第四阶段:可视化与注释 1. **非线性降维**:UMAP 或 t-SNE 二维可视化 2. **细胞类型注释**:结合标记基因、参考数据库、自动注释工具 3. **标记基因鉴定**:差异表达分析识别 cluster 特异性基因 ### 第五阶段:高级分析(可选) | 分析类型 | 目的 | 工具 | |---------|------|------| | **轨迹推断** | 重建分化路径 | Monocle 3、Slingshot、PAGA | | **RNA velocity** | 推断动态变化方向 | scVelo | | **细胞通讯** | 推断配体-受体信号网络 | CellChat、NicheNet | | **批次整合** | 校正多批次数据 | Harmony、scVI | | **差异表达** | 识别条件特异性基因 | MAST、Wilcoxon rank-sum | ## 输入输出 ### 输入 - **FASTQ 文件**:测序原始数据; - **参考基因组**:用于比对; - **样本元数据**:实验条件、批次信息等。 ### 输出 - **Count matrix**:基因 × 细胞的表达矩阵; - **细胞聚类结果**:每个细胞的簇标签; - **降维坐标**:PCA、UMAP 坐标; - **细胞类型注释**:每个细胞的类型标签; - **差异表达基因列表**; - **可视化图表**:聚类图、热图、轨迹图等。 <PitfallsBox pitfalls={[ 'Dropout = 表达量为 0:', '不对。单细胞数据中大量的 0 值很多是技术性 dropout(未检测到),而不是真正的无表达。需要考虑零膨胀和归一化。', '细胞聚类结果就是生物学真相:', '不对。聚类结果高度依赖于参数选择(如分辨率、邻居数),需要结合标记基因和生物学知识验证。', 'UMAP/t-SNE 距离有生物学意义:', '不对。UMAP/t-SNE 是非线性降维方法,主要用于可视化,距离和密度不一定反映真实的生物学关系。' ]} /> ## 推荐阅读顺序 1. [scRNA-seq 总览](./scrna-seq-overview.mdx) 2. [细胞 Barcode 与 UMI](./cell-barcode-umi.mdx) 3. [聚类与 UMAP 降维](./clustering-and-umap.mdx) 4. [轨迹推断](./trajectory-analysis.mdx) ## 子主题导航 <SectionNavigator items={[ { title: 'scRNA-seq 总览', to: '/wiki-bioinfo/single-cell/scrna-seq-overview', description: '测序原理、实验流程与标准分析管道概述。', }, { title: '细胞 Barcode 与 UMI', to: '/wiki-bioinfo/single-cell/cell-barcode-umi', description: 'Barcode 去重、UMI 计数与 count matrix 的生成。', }, { title: '聚类与 UMAP 降维', to: '/wiki-bioinfo/single-cell/clustering-and-umap', description: '主成分分析、Leiden/Louvain 聚类与 UMAP 可视化。', }, { title: '轨迹推断', to: '/wiki-bioinfo/single-cell/trajectory-analysis', description: '伪时间、RNA velocity 与细胞分化路径分析。', }, ]} /> ## 与其他板块的连接 - 数据预处理依赖 [测序质控](../workflows/qc-overview.md); - 差异表达分析参见 [转录组章节](../transcriptomics/differential-expression.mdx); - 与组织定位结合可继续看 [空间转录组](../spatial/index.mdx); - 聚类算法基础见 [系统发育与聚类](../phylogeny/hierarchical-clustering.mdx)。