去卷积与细胞映射
空间去卷积(deconvolution)的数学模型、算法实现与单细胞参考整合策略
空间去卷积(Spatial Deconvolution) 是一类将空间转录组 spot 的混合表达信号分解为各细胞类型贡献比例的计算方法。由于大多数空间平台(如 10x Visium)的一个 spot 包含多个细胞,直接读取的表达值是这些细胞表达谱的加权平均。去卷积的目标是利用单细胞 RNA-seq(scRNA-seq)提供的参考图谱,反推每个 spot 中各细胞类型的组成比例。
要解决什么生物信息学问题
Section titled “要解决什么生物信息学问题”在肿瘤微环境、胚胎发育、神经组织等研究中,我们常遇到以下场景:
- 观察到某个空间区域高表达免疫相关基因,但无法确定是哪种免疫细胞富集
- 肿瘤-正常边界区域的 spot 同时表达肿瘤和基质 marker,难以定性注释
- 需要量化不同细胞类型在空间上的共定位模式
形式化问题定义
Section titled “形式化问题定义”输入:
- 空间转录组数据:,基因 × spot 的表达矩阵
- scRNA-seq 参考:细胞类型 的参考表达谱
输出:
- 细胞类型比例矩阵:,其中 表示细胞类型 在 spot 中的比例
约束:
- (每个 spot 的比例之和为 1)
- (比例非负)
核心思想与数学模型
Section titled “核心思想与数学模型”线性混合模型
Section titled “线性混合模型”最基本的去卷积假设是 spot 表达为各细胞类型表达的线性组合:
其中:
- :spot 的观测表达向量
- :细胞类型 的参考表达谱
- :细胞类型 在 spot 中的比例
- :噪声项(通常假设为高斯或泊松分布)
矩阵形式:
其中 为参考表达矩阵, 为待求比例矩阵。
统计模型扩展
Section titled “统计模型扩展”不同工具在基础线性模型上引入不同扩展:
| 工具 | 核心模型 | 关键扩展 |
|---|---|---|
| SPOTlight | NMF + 约束 | 非负矩阵分解,加入互斥约束 |
| RCTD | 泊松模型 + EM | 显式建模平台效应、捕获效率差异 |
| cell2location | 贝叶斯层次模型 | 建模 spot 特异的总 mRNA 丰度,支持多切片 |
| Tangram | 深度学习映射 | 学习 scRNA-seq 到空间的最优映射函数 |
cell2location 的生成模型示例
Section titled “cell2location 的生成模型示例”cell2location 使用以下生成过程:
其中 是 spot 特异的总 mRNA 丰度(反映细胞密度差异)。
关键算法与实现
Section titled “关键算法与实现”1. 非负最小二乘法(NNLS)
Section titled “1. 非负最小二乘法(NNLS)”最简单的实现方式:
优点:简单、快速、可解释 缺点:忽略技术噪声、基因间相关性
2. 期望最大化(EM)算法
Section titled “2. 期望最大化(EM)算法”RCTD 使用 EM 算法估计参数:
E-step:给定当前参数,计算隐变量的后验分布
M-step:最大化期望对数似然,更新参数
3. 变分推断
Section titled “3. 变分推断”cell2location 使用变分推断近似后验分布:
- 引入变分分布 近似真实后验
- 最大化证据下界(ELBO):
简单案例:两种细胞类型的混合
Section titled “简单案例:两种细胞类型的混合”假设一个 spot 包含肿瘤细胞和基质细胞,我们有以下简化数据:
参考表达谱(仅考虑 3 个 marker 基因):
| 基因 | 肿瘤细胞 | 基质细胞 |
|---|---|---|
| EPCAM | 5.0 | 0.1 |
| VIM | 0.2 | 4.0 |
| MKI67 | 3.0 | 0.5 |
观测到的 spot 表达(经过标准化):
| 基因 | 观测值 |
|---|---|
| EPCAM | 2.5 |
| VIM | 2.0 |
| MKI67 | 1.5 |
求解:
设肿瘤细胞比例为 ,基质细胞为 :
使用 NNLS 求解得:,
解释:该 spot 约含 52% 肿瘤细胞和 48% 基质细胞,符合肿瘤-边界区域的预期。
复杂度与适用前提
Section titled “复杂度与适用前提”| 工具 | 时间复杂度 | 空间复杂度 | 适用规模 |
|---|---|---|---|
| SPOTlight (NMF) | 中等规模(<10k spots) | ||
| RCTD | 中等规模 | ||
| cell2location | 大规模(需 GPU 加速) |
注: 为迭代次数, 为变分推断的采样数。
适用前提与潜在陷阱
Section titled “适用前提与潜在陷阱”| 前提假设 | 潜在问题 | 应对策略 |
|---|---|---|
| 参考包含所有细胞类型 | 缺失细胞类型会被错误分配 | 先进行无监督聚类检测 novel types |
| 参考表达与空间表达可比 | 技术平台差异 | 标准化、批次校正、平台效应建模 |
| 线性混合假设成立 | 细胞间相互作用改变表达 | 考虑邻域效应建模 |
| spot 覆盖区域细胞均匀 | 细胞大小差异导致偏差 | 使用细胞体积加权模型 |
与真实工具或流程的连接
Section titled “与真实工具或流程的连接”标准分析流程中的位置
Section titled “标准分析流程中的位置”scRNA-seq 参考数据 ↓聚类注释 → 构建参考表达谱 ↓空间数据预处理(质控、标准化) ↓去卷积算法 ├─ RCTD(推荐用于 10x Visium) ├─ cell2location(推荐用于多切片分析) ├─ SPOTlight(快速初步分析) └─ Tangram(需要单细胞级映射时) ↓细胞类型比例矩阵 ↓可视化(空间热图)+ 下游分析(邻域富集、微环境聚类)工具选择决策
Section titled “工具选择决策”| 场景 | 推荐工具 | 理由 |
|---|---|---|
| 单样本、快速分析 | SPOTlight | 无需 GPU,运行快 |
| 多切片、批次复杂 | cell2location | 显式建模批次效应 |
| 需要不确定性估计 | RCTD / cell2location | 提供置信区间 |
| 需要单细胞级映射 | Tangram | 输出单细胞空间坐标 |
| 稀有细胞类型 | cell2location | 对低丰度细胞更敏感 |
结果如何解释
Section titled “结果如何解释”正确解读比例
Section titled “正确解读比例”去卷积输出的是相对贡献估计,而非精确细胞数:
- 比例形式:spot A = T cell 0.4 + macrophage 0.3 + stromal 0.3
- 解释:该 spot 的表达信号约 40% 来自 T 细胞,30% 来自巨噬细胞,30% 来自基质细胞
- 不等于:该 spot 有 4 个 T 细胞、3 个巨噬细胞、3 个基质细胞
不确定性评估
Section titled “不确定性评估”贝叶斯方法(cell2location、RCTD)提供比例的后验分布:
- 检查 的置信区间宽度
- 宽区间表示该 spot 的细胞类型组成难以确定(可能是参考中缺失的类型)
生物学解释要点
Section titled “生物学解释要点”- 边界区域:通常显示混合比例(如肿瘤-基质界面)
- 富集区域:某些区域可能由单一类型主导(如淋巴滤泡)
- 异常模式:纯肿瘤区域内出现免疫细胞比例,可能提示浸润
- Cable et al., 2022. Robust decomposition of cell type mixtures in spatial transcriptomics. Nature Biotechnology (RCTD)
- Kleshchevnikov et al., 2022. Cell2location maps fine-grained cell types in spatial transcriptomics. Nature Biotechnology
- Andersson & Lundeberg, 2021. SPOTlight: seeded NMF regression to deconvolute spatial transcriptomics spots. Bioinformatics
- Biancalani et al., 2021. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram. Nature Methods
- Arnold et al., 2023. Spatial deconvolution of HER2-positive breast cancer delineates tumor-associated cell type interactions. Nature Communications