跳转到内容

DNA 甲基化

快速概览

DNA 甲基化是在不改变 DNA 序列的前提下,通过在胞嘧啶上添加甲基来调控基因表达的机制。它是理解细胞分化、基因组印记和癌症发生的关键。

  • 掌握 CpG 二核苷酸与 CpG 岛(CG-islands)的概念
  • 理解识别 CG 岛的 HMM 建模直觉:公平赌场模型的应用
  • 掌握亚硫酸氢盐测序(Bisulfite Sequencing)将甲基化信号转化为序列差异的原理
  • 了解差异甲基化区域(DMR)的统计检测逻辑
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

在哺乳动物中,甲基化主要发生在 CpG(C-磷酸-G)二核苷酸的胞嘧啶(C) 上。

  • CpG 岛:基因组中 CpG 出现频率显著高于背景的区域,通常位于基因启动子区。
  • 生物学效应:启动子区的高甲基化通常与基因沉默相关;而基因体(Gene Body) 的甲基化则往往与活跃转录正相关。

由于甲基化胞嘧啶易突变为胸腺嘧啶(T),导致基因组中大部分 CpG 已经丢失。剩下的 CpG 往往聚集在功能重要的区域。

我们可以将寻找 CG 岛的问题建模为一个 公平赌场(Fair Bet Casino) 问题:

  • 隐藏状态:当前碱基属于”CG 岛”内部还是”背景区域”。
  • 观测:实际看到的碱基序列。
  • 逻辑:在”CG 岛”状态下,发射 CG 的概率显著高于背景状态。通过 Viterbi 算法,我们可以推断出整条序列中最可能的隐藏状态路径,从而精确定位 CG 岛的边界。

亚硫酸氢盐处理(Bisulfite Treatment) 是检测甲基化的金标准:

  1. 化学转化:将未甲基化的 C 转化为 U(测序读为 T),而甲基化的 C 保持不变。
  2. 比对挑战:这导致 Read 与参考基因组之间存在大量的 CTC \to T 错配。
  3. 计算对策:使用专门的比对工具(如 Bismark 或 bwa-meth)。它们通常将参考基因组也进行三碱基转换,从而在降低的字母表空间中进行匹配。

亚硫酸氢盐处理的效率直接决定数据质量:

  • 转化效率评估:通常通过检测已知非甲基化的 Lambda DNA 掺入来衡量。高效转化的 Lambda DNA 中的 C 应几乎全部被转化为 T(转化率 > 99%)。
  • 未转化 C 的来源:如果转化率低于 95%,可能是亚硫酸氢盐处理不充分(假阴性——甲基化 C 被漏检)或存在不完全变性区域。
  • 过度转化的风险:5mC 本身也可能在极端条件下被脱氨(转化为 T),导致假阴性。通常通过优化反应时间和温度来平衡。

WGBS 的比对面临独特挑战——传统的碱基级比对会因大量 CTC \to T 错配而失败。主流工具采用的策略:

  • 三碱基比对:将参考基因组和 reads 中的 C 全部替换为 T(或在正负链分别处理),在”退化”的三字母空间(A, T, G) 中完成比对,再映射回原始坐标。
  • 方向性(Directional)vs 非方向性(Non-directional)文库:方向性文库只保留原始链的信息,非方向性文库保留正负两条链。分析流程需要根据文库类型调整。

DMR (Differentially Methylated Regions) 是指在不同条件(如癌症 vs 正常)下甲基化水平显著不同的区域。

  • 量化:计算每个位点的甲基化比例 β=CC+T\beta = \frac{C}{C+T}
  • 建模:由于 β\beta 值具有有界性(0 到 1 之间),通常使用 Beta-Binomial 分布 来处理生物学重复间的变异。

DNA 甲基化对基因表达的影响高度依赖于基因组位置

  • 启动子区域:高甲基化通常导致转录抑制。机制包括阻碍转录因子结合、招募甲基化结合蛋白(如 MeCP2)。少数例外情况下(如某些发育调控基因),启动子甲基化与活跃转录相关。
  • 基因体(Gene Body):甲基化通常与活跃转录正相关,可能通过抑制内含子内的隐秘启动子、促进转录延伸或调控剪接来实现。
  • 增强子区域:低甲基化通常对应活跃增强子,但甲基化变化可能是活性变化的结果而非原因。

甲基化与表达的相关性不等于因果关系——甲基化可能是调控的原因,也可能是转录沉默后被 DNMT 维持的结果,或两者受共同的上游调控。区分因果需要扰动实验(如甲基化编辑)或时间序列数据。

DNA 甲基化数据具有独特的统计特性,需要专门的建模策略:

  • 有界性:甲基化比例 β[0,1]\beta \in [0, 1],不能直接用正态分布建模(边界处方差趋于零)。
  • 过离散:生物学变异使方差大于二项分布的预期,需要 Beta-Binomial 分布 来处理。
  • 覆盖不均:不同位点覆盖深度差异大,低覆盖位点估计不可靠,通常要求 5×\geq 5\times 覆盖。

常用分析工具包括 methylKit(差异分析与可视化)、DSS(贝叶斯分层模型,适用于低覆盖数据)和 bsseq(BSmooth 平滑算法)。这些工具的核心都是处理甲基化数据的特殊分布特性。

Bulk WGBS 测量的是细胞群体的平均甲基化水平,但组织中存在细胞异质性。单细胞甲基化测序(scBS-seq / scWGBS) 试图解决这一问题,但面临根本性挑战:

  • 极端稀疏:每个细胞只能检测到基因组中极小比例的 CpG 位点(通常 < 10%),大部分位点的状态是”未观测到”而非”未甲基化”。
  • 覆盖不均:不同细胞检测到的 CpG 位点集合不同,难以直接比较。
  • 二值化信号:每个 CpG 位点要么甲基化(1)要么不甲基化(0),没有中间状态。
  • 区域聚合:由于单碱基分辨率不可靠,将相邻 CpG 聚合为区域(如 500 bp 窗口),计算区域级甲基化比例。
  • 降维与聚类:使用 PCA 或非负矩阵分解对细胞的区域甲基化谱进行降维,识别细胞亚群。
  • 与 scRNA-seq 整合:由于单细胞甲基化数据本身太稀疏,常利用参考 bulk 甲基化图谱或与 scRNA-seq 联合分析来推断细胞类型。

DNA 甲基化研究经历了从现象观察到分子机制的深入:

  • 1948 年:Rollin Hotchkiss 首次发现 5-甲基胞嘧啶。
  • 1970s:DNA 甲基化与基因调控的关联建立。
  • 1980s:DNA 甲基转移酶的克隆和功能研究。
  • 1990s:印记和 X 失活的甲基化机制阐明。
  • 2009 年:Lister 等人发布首个单碱基分辨率的人类全基因组甲基化图谱(Nature)。
  • 2012 年后:单细胞甲基化测序技术发展。

关键文献

  • Frommer et al. (1992). A genomic sequencing protocol that yields a positive display of 5-methylcytosine residues in individual DNA strands. PNAS. —— 亚硫酸氢盐测序的基础方法。
  • Lister et al. (2009). Human DNA methylomes at base resolution show widespread epigenomic differences. Nature. —— 首个单碱基分辨率人类甲基化图谱。
  • Roadmap Epigenomics Consortium (2015). Integrative analysis of 111 reference human epigenomes. Nature. —— 大规模参考甲基化图谱。

数据资源:ENCODE 和 Roadmap Epigenomics 项目的 DNA 甲基化数据、UCSC 表观基因组浏览器、MethBank 数据库。