DMR 检测算法

快速概览

DMR（Differentially Methylated Region）检测算法识别不同条件间甲基化状态显著差异的基因组区域，是表观遗传学研究的核心统计问题。

核心是使用 beta-binomial 模型建模甲基化比例的有界性和过离散性
关键挑战是区域边界的推断与覆盖深度不均的处理
常用方法包括滑动窗口、连续 CpG 平滑和贝叶斯分段

问题背景

核心问题：从单个位点到生物学区域

DNA 甲基化测序（如 WGBS、RRBS）可以在单碱基分辨率检测每个 CpG 位点的甲基化状态。然而，直接比较单个位点面临多重挑战：

覆盖度不均：不同位点的测序深度差异大，低覆盖位点估计不可靠
生物学变异：甲基化状态在细胞间存在异质性
多重检验问题：全基因组有数百万个 CpG 位点，逐个检验的校正过于保守
生物学解释困难：单个位点变化的功能意义不明确

DMR 检测旨在解决这些问题：通过识别差异甲基化区域（Differentially Methylated Regions），将分析从单个位点提升到生物学功能区域。

DMR 检测的生物学动机

生物学上，DNA 甲基化的调控通常作用于区域而非单个位点：

启动子区域的甲基化协同变化决定基因表达状态
增强子区域的甲基化改变影响调控活性
差异甲基化区域（DMR）是疾病生物标志物和调控元件的可靠指标

因此，DMR 检测不仅是统计优化，更是连接分子数据与生物学功能的桥梁。

给定两个条件（如肿瘤 vs. 正常）的甲基化测序数据，DMR 检测算法回答：

基因组上哪些连续区域的甲基化状态在两条件间存在显著差异？

这涉及三个子问题：

区域定义：哪些 CpG 位点应被视为一个生物学区域？
统计检验：如何检验区域层面的甲基化差异？
多重校正：如何处理全基因组扫描的多重检验？

DMR 检测的应用场景

DMR 检测在多种生物学研究中发挥关键作用：

癌症表观遗传学：

识别肿瘤抑制基因启动子的异常高甲基化
发现具有诊断或预后价值的甲基化标志物
揭示癌症亚型特异性的表观遗传特征

发育生物学：

追踪分化过程中甲基化图谱的动态变化
识别细胞类型特异性的调控区域
研究印记和 X 失活的建立与维持

疾病关联研究：

环境暴露与表观遗传改变的关系
衰老相关的甲基化漂移（methylation drift）
复杂疾病（如精神疾病）的表观遗传风险因素

统计模型（教学性解释）

重要说明：本节使用简化的数学模型帮助理解 DMR 检测的核心思想。实际 DMR 检测工具（如 DSS、methylKit、bsseq）的实现包含大量贝叶斯推断、平滑优化和参数调整策略，与这里的简化描述存在显著差异。请不要将此处的公式和流程直接等同于源码实现。

数据表示

对于每个 CpG 位点 i，我们观测到：

m_i：支持甲基化的 read 数
u_i：支持未甲基化的 read 数
n_i = m_i + u_i：总覆盖深度
β_i = m_i / n_i：观测甲基化比例

Beta-binomial 模型（教学近似）

为便于理解，DMR 检测可视为基于以下简化假设。

甲基化比例数据具有两个关键特性：

有界性：β ∈ [0, 1]
过离散：方差大于二项分布的期望

因此，beta-binomial 模型比简单的二项分布或正态分布更合适：

$P(m_i | n_i, \alpha, \beta) = \binom\{n_i\}\{m_i\} \frac\{B(m_i + \alpha, n_i - m_i + \beta)\}\{B(\alpha, \beta)\}$

其中：

B(·, ·) 是 Beta 函数
α 和 β 是 Beta 分布的参数
期望甲基化比例：μ = α / (α + β)
离散度参数：φ = 1 / (α + β)

当 φ → 0（即 α + β → ∞）时，beta-binomial 退化为二项分布。

差异检验

对于两个条件 A 和 B，我们在每个位点或区域检验：

$H_0: \mu_A = \mu_B$ $H_1: \mu_A \neq \mu_B$

常用检验统计量包括：

Wald 检验

$Z = \frac\{\hat\{\mu\}_A - \hat\{\mu\}_B\}\{\sqrt\{\text\{Var\}(\hat\{\mu\}_A) + \text\{Var\}(\hat\{\mu\}_B)\}\}$

在 beta-binomial 模型下：

$\text\{Var\}(\hat\{\mu\}) = \frac\{\mu(1-\mu)\}\{n\} [1 + (n-1)\phi]$

似然比检验

比较两个模型的似然：

模型 1（零假设）：μ_A = μ_B = μ
模型 2（备择假设）：μ_A ≠ μ_B

$LR = -2 \log \frac\{L(H_0)\}\{L(H_1)\}$

在大样本下，LR 近似服从 χ² 分布（自由度为 1）。

算法策略

策略 1：滑动窗口法（概念性说明）

最直接的 DMR 检测方法：在基因组上滑动固定大小的窗口，在每个窗口内汇总 CpG 位点的甲基化数据，然后执行统计检验。

注意：实际实现涉及窗口大小优化、步长选择、CpG 覆盖度过滤等复杂策略，远比这里的简化描述复杂。此处的描述仅用于说明基本思路。

策略 2：连续 CpG 分区法（BSmooth 风格，概念性说明）

先对甲基化比例进行平滑，然后识别连续差异区域。

基本思路：

平滑每个样本的甲基化信号（使用移动平均、LOESS 或样条平滑）
计算条件间的差异
寻找连续显著差异区域

注意：实际 BSmooth 的平滑参数选择、区域合并策略和统计检验方法涉及大量优化和启发式规则。

策略 3：分段常数模型（DSS 风格，概念性说明）

假设基因组由若干甲基化水平恒定的区域组成，使用贝叶斯方法推断区域边界，然后在每个推断的区域上执行差异检验。

注意：实际 DSS 使用贝叶斯分层模型，涉及复杂的先验选择、MCMC 采样和区域推断策略，远超此处的简化描述。

示例（简化示意）

以下例子仅用于说明 DMR 检测的基本思路，数值和步骤均为简化。

场景设定：

某区域包含多个 CpG 位点
条件 A 的平均甲基化比例约为 0.8
条件 B 的平均甲基化比例约为 0.4
两者差异显著（Δβ ≈ 0.4）

核心思想：

将相邻 CpG 合并为区域
使用 beta-binomial 模型考虑甲基化比例的过离散特性
执行统计检验（如 Wald 检验或似然比检验）
进行多重检验校正

关键点：

实际 DMR 检测工具的实现远比此处的简化计算复杂
真实的区域推断涉及平滑、分段和贝叶斯方法
覆盖度差异、批次效应等复杂因素在此例中未体现

本例的目的不是教你如何手工计算，而是帮助理解：DMR 检测本质上是在区域层面检验甲基化比例的统计差异，同时考虑数据的有界性和过离散特性。

关键参数与选择

最小 CpG 数量

通常要求 DMR 至少包含 3-5 个 CpG 位点，以确保统计功效。

最小覆盖深度

单个 CpG：通常要求 ≥ 5× 覆盖
区域汇总：通常要求总覆盖 ≥ 20×

最小差异阈值

除了统计显著性，通常还要求：

|Δβ| ≥ 0.1 或 0.2（绝对甲基化差异）
或 fold change ≥ 2（如果使用比值）

最大 gap

允许 CpG 之间的最大间隔，默认常设为 500-1000 bp。

复杂度分析

时间复杂度

滑动窗口法：O(G × w)，G 是基因组长度，w 是窗口数
平滑方法：O(n × k)，n 是 CpG 数，k 是平滑窗口大小
分段方法：O(n log n) 到 O(n²)，取决于具体实现

空间复杂度

存储所有 CpG 数据：O(n)
存储平滑结果：O(n)
存储候选 DMR：O(r)，r 是区域数

总体空间复杂度：O(n + r)

与真实工具或流程的连接

methylKit

R 包，提供：

滑动窗口 DMR 检测
基于 tile 的区域分析
多重检验校正
可视化功能

DSS

R 包，使用：

贝叶斯分层模型
分段常数假设
适用于低覆盖数据

bsseq

R 包，提供：

平滑方法（BSmooth）
区域检验
与其他组学数据的整合

metilene

C++ 工具，特点：

快速
使用分段算法
适用于大规模数据

算法优化与变体

考虑细胞组成差异

在 bulk 组织中，甲基化差异可能源于细胞组成变化而非表观遗传变化。解决方案：

使用参考数据解卷积细胞组成
或使用单细胞甲基化数据

多组学整合

结合其他数据：

ChIP-seq：组蛋白修饰
ATAC-seq：染色质可及性
RNA-seq：基因表达

提高 DMR 的生物学解释性。

时序数据

对于时间序列数据，使用：

时间序列平滑
变点检测
功能数据分析

参考资料

Hebestreit, K., et al. (2013). methylKit: a comprehensive R package for the analysis of genome-wide DNA methylation profiles. Genome Biology, 14(10), R115.
Feng, H., et al. (2014). DSS: a Bayesian hierarchical model for detecting differential methylation. Bioinformatics, 30(14), 2060-2065.
Hansen, K. D., et al. (2012). BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions. Genome Biology, 13(10), R83.