DNA 甲基化

快速概览

DNA 甲基化是在不改变 DNA 序列的前提下，通过在胞嘧啶上添加甲基来调控基因表达的机制。它是理解细胞分化、基因组印记和癌症发生的关键。

掌握 CpG 二核苷酸与 CpG 岛（CG-islands）的概念
理解识别 CG 岛的 HMM 建模直觉：公平赌场模型的应用
掌握亚硫酸氢盐测序（Bisulfite Sequencing）将甲基化信号转化为序列差异的原理
了解差异甲基化区域（DMR）的统计检测逻辑

1. 什么是 DNA 甲基化？

在哺乳动物中，甲基化主要发生在 CpG（C-磷酸-G）二核苷酸的胞嘧啶（C）上。

CpG 岛：基因组中 CpG 出现频率显著高于背景的区域，通常位于基因启动子区。
生物学效应：启动子区的高甲基化通常与基因沉默相关；而基因体（Gene Body）的甲基化则往往与活跃转录正相关。

2. 算法挑战：如何识别 CG 岛？

由于甲基化胞嘧啶易突变为胸腺嘧啶（T），导致基因组中大部分 CpG 已经丢失。剩下的 CpG 往往聚集在功能重要的区域。

HMM 建模直觉

我们可以将寻找 CG 岛的问题建模为一个 公平赌场（Fair Bet Casino） 问题：

隐藏状态：当前碱基属于”CG 岛”内部还是”背景区域”。
观测：实际看到的碱基序列。
逻辑：在”CG 岛”状态下，发射 C 和 G 的概率显著高于背景状态。通过 Viterbi 算法，我们可以推断出整条序列中最可能的隐藏状态路径，从而精确定位 CG 岛的边界。

3. 实验与计算：WGBS 流程

亚硫酸氢盐处理（Bisulfite Treatment） 是检测甲基化的金标准：

化学转化：将未甲基化的 C 转化为 U（测序读为 T），而甲基化的 C 保持不变。
比对挑战：这导致 Read 与参考基因组之间存在大量的 $C \to T$ 错配。
计算对策：使用专门的比对工具（如 Bismark 或 bwa-meth）。它们通常将参考基因组也进行三碱基转换，从而在降低的字母表空间中进行匹配。

亚硫酸氢盐转化质控

亚硫酸氢盐处理的效率直接决定数据质量：

转化效率评估：通常通过检测已知非甲基化的 Lambda DNA 掺入来衡量。高效转化的 Lambda DNA 中的 C 应几乎全部被转化为 T（转化率 > 99%）。
未转化 C 的来源：如果转化率低于 95%，可能是亚硫酸氢盐处理不充分（假阴性——甲基化 C 被漏检）或存在不完全变性区域。
过度转化的风险：5mC 本身也可能在极端条件下被脱氨（转化为 T），导致假阴性。通常通过优化反应时间和温度来平衡。

比对策略细节

WGBS 的比对面临独特挑战——传统的碱基级比对会因大量 $C \to T$ 错配而失败。主流工具采用的策略：

三碱基比对：将参考基因组和 reads 中的 C 全部替换为 T（或在正负链分别处理），在”退化”的三字母空间（A, T, G）中完成比对，再映射回原始坐标。
方向性（Directional）vs 非方向性（Non-directional）文库：方向性文库只保留原始链的信息，非方向性文库保留正负两条链。分析流程需要根据文库类型调整。

4. 统计分析：DMR 的鉴定

DMR (Differentially Methylated Regions) 是指在不同条件（如癌症 vs 正常）下甲基化水平显著不同的区域。

量化：计算每个位点的甲基化比例 $\beta = \frac{C}{C+T}$ 。
建模：由于 $\beta$ 值具有有界性（0 到 1 之间），通常使用 Beta-Binomial 分布 来处理生物学重复间的变异。

5. 甲基化与基因表达的关系

DNA 甲基化对基因表达的影响高度依赖于基因组位置：

启动子区域：高甲基化通常导致转录抑制。机制包括阻碍转录因子结合、招募甲基化结合蛋白（如 MeCP2）。少数例外情况下（如某些发育调控基因），启动子甲基化与活跃转录相关。
基因体（Gene Body）：甲基化通常与活跃转录正相关，可能通过抑制内含子内的隐秘启动子、促进转录延伸或调控剪接来实现。
增强子区域：低甲基化通常对应活跃增强子，但甲基化变化可能是活性变化的结果而非原因。

甲基化与表达的相关性不等于因果关系——甲基化可能是调控的原因，也可能是转录沉默后被 DNMT 维持的结果，或两者受共同的上游调控。区分因果需要扰动实验（如甲基化编辑）或时间序列数据。

6. 统计建模挑战

DNA 甲基化数据具有独特的统计特性，需要专门的建模策略：

有界性：甲基化比例 $\beta \in [0, 1]$ ，不能直接用正态分布建模（边界处方差趋于零）。
过离散：生物学变异使方差大于二项分布的预期，需要 Beta-Binomial 分布 来处理。
覆盖不均：不同位点覆盖深度差异大，低覆盖位点估计不可靠，通常要求 $\geq 5\times$ 覆盖。

常用分析工具包括 methylKit（差异分析与可视化）、DSS（贝叶斯分层模型，适用于低覆盖数据）和 bsseq（BSmooth 平滑算法）。这些工具的核心都是处理甲基化数据的特殊分布特性。

7. 单细胞 DNA 甲基化

Bulk WGBS 测量的是细胞群体的平均甲基化水平，但组织中存在细胞异质性。单细胞甲基化测序（scBS-seq / scWGBS）试图解决这一问题，但面临根本性挑战：

数据特性

极端稀疏：每个细胞只能检测到基因组中极小比例的 CpG 位点（通常 < 10%），大部分位点的状态是”未观测到”而非”未甲基化”。
覆盖不均：不同细胞检测到的 CpG 位点集合不同，难以直接比较。
二值化信号：每个 CpG 位点要么甲基化（1）要么不甲基化（0），没有中间状态。

分析策略

区域聚合：由于单碱基分辨率不可靠，将相邻 CpG 聚合为区域（如 500 bp 窗口），计算区域级甲基化比例。
降维与聚类：使用 PCA 或非负矩阵分解对细胞的区域甲基化谱进行降维，识别细胞亚群。
与 scRNA-seq 整合：由于单细胞甲基化数据本身太稀疏，常利用参考 bulk 甲基化图谱或与 scRNA-seq 联合分析来推断细胞类型。

常见误区

误区 1：甲基化数据可以脱离参考基因组版本解释。 CpG 位点坐标严格依赖参考基因组版本（hg19 vs hg38），基因组补丁和替代位点可能影响注释。分析时必须确保所有数据使用一致的参考版本。
误区 2：CpG 岛总是低甲基化的。体细胞中 CpG 岛通常保持非甲基化，但在特定情况下会发生高甲基化——如肿瘤细胞中抑癌基因启动子 CpG 岛的高甲基化、印记基因的差异化甲基化，以及 X 染色体失活相关的甲基化。
误区 3：单个显著位点足以说明调控变化。单个位点差异可能是技术噪声，生物学上有意义的调控通常涉及区域层面的甲基化变化，应优先报告 DMR 而非单个位点。
误区 4：Bulk 组织的甲基化变化反映细胞内变化。 Bulk 组织是异质性细胞群体的混合物，观察到的甲基化变化可能源于细胞组成变化（如免疫细胞浸润增加）而非真实细胞内甲基化状态改变。需要解卷积分析或单细胞数据来区分这两种可能性。

8. 历史背景与关键文献

DNA 甲基化研究经历了从现象观察到分子机制的深入：

1948 年：Rollin Hotchkiss 首次发现 5-甲基胞嘧啶。
1970s：DNA 甲基化与基因调控的关联建立。
1980s：DNA 甲基转移酶的克隆和功能研究。
1990s：印记和 X 失活的甲基化机制阐明。
2009 年：Lister 等人发布首个单碱基分辨率的人类全基因组甲基化图谱（Nature）。
2012 年后：单细胞甲基化测序技术发展。

关键文献：

Frommer et al. (1992). A genomic sequencing protocol that yields a positive display of 5-methylcytosine residues in individual DNA strands. PNAS. —— 亚硫酸氢盐测序的基础方法。
Lister et al. (2009). Human DNA methylomes at base resolution show widespread epigenomic differences. Nature. —— 首个单碱基分辨率人类甲基化图谱。
Roadmap Epigenomics Consortium (2015). Integrative analysis of 111 reference human epigenomes. Nature. —— 大规模参考甲基化图谱。

数据资源：ENCODE 和 Roadmap Epigenomics 项目的 DNA 甲基化数据、UCSC 表观基因组浏览器、MethBank 数据库。