跳转到内容

DMR 检测算法

快速概览

DMR(Differentially Methylated Region)检测算法识别不同条件间甲基化状态显著差异的基因组区域,是表观遗传学研究的核心统计问题。

  • 核心是使用 beta-binomial 模型建模甲基化比例的有界性和过离散性
  • 关键挑战是区域边界的推断与覆盖深度不均的处理
  • 常用方法包括滑动窗口、连续 CpG 平滑和贝叶斯分段
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

核心问题:从单个位点到生物学区域

Section titled “核心问题:从单个位点到生物学区域”

DNA 甲基化测序(如 WGBS、RRBS)可以在单碱基分辨率检测每个 CpG 位点的甲基化状态。然而,直接比较单个位点面临多重挑战:

  • 覆盖度不均:不同位点的测序深度差异大,低覆盖位点估计不可靠
  • 生物学变异:甲基化状态在细胞间存在异质性
  • 多重检验问题:全基因组有数百万个 CpG 位点,逐个检验的校正过于保守
  • 生物学解释困难:单个位点变化的功能意义不明确

DMR 检测旨在解决这些问题:通过识别差异甲基化区域(Differentially Methylated Regions),将分析从单个位点提升到生物学功能区域。

生物学上,DNA 甲基化的调控通常作用于区域而非单个位点

  • 启动子区域的甲基化协同变化决定基因表达状态
  • 增强子区域的甲基化改变影响调控活性
  • 差异甲基化区域(DMR)是疾病生物标志物和调控元件的可靠指标

因此,DMR 检测不仅是统计优化,更是连接分子数据与生物学功能的桥梁。

给定两个条件(如肿瘤 vs. 正常)的甲基化测序数据,DMR 检测算法回答:

基因组上哪些连续区域的甲基化状态在两条件间存在显著差异?

这涉及三个子问题:

  1. 区域定义:哪些 CpG 位点应被视为一个生物学区域?
  2. 统计检验:如何检验区域层面的甲基化差异?
  3. 多重校正:如何处理全基因组扫描的多重检验?

DMR 检测在多种生物学研究中发挥关键作用:

癌症表观遗传学

  • 识别肿瘤抑制基因启动子的异常高甲基化
  • 发现具有诊断或预后价值的甲基化标志物
  • 揭示癌症亚型特异性的表观遗传特征

发育生物学

  • 追踪分化过程中甲基化图谱的动态变化
  • 识别细胞类型特异性的调控区域
  • 研究印记和 X 失活的建立与维持

疾病关联研究

  • 环境暴露与表观遗传改变的关系
  • 衰老相关的甲基化漂移(methylation drift)
  • 复杂疾病(如精神疾病)的表观遗传风险因素

重要说明:本节使用简化的数学模型帮助理解 DMR 检测的核心思想。实际 DMR 检测工具(如 DSS、methylKit、bsseq)的实现包含大量贝叶斯推断、平滑优化和参数调整策略,与这里的简化描述存在显著差异。请不要将此处的公式和流程直接等同于源码实现。

对于每个 CpG 位点 i,我们观测到:

  • m_i:支持甲基化的 read 数
  • u_i:支持未甲基化的 read 数
  • n_i = m_i + u_i:总覆盖深度
  • β_i = m_i / n_i:观测甲基化比例

为便于理解,DMR 检测可视为基于以下简化假设。

甲基化比例数据具有两个关键特性:

  1. 有界性:β ∈ [0, 1]
  2. 过离散:方差大于二项分布的期望

因此,beta-binomial 模型比简单的二项分布或正态分布更合适:

P(mini,α,β)=({n)i}{mi}{B(mi+α,nimi+β)}{B(α,β)}P(m_i | n_i, \alpha, \beta) = \binom\{n_i\}\{m_i\} \frac\{B(m_i + \alpha, n_i - m_i + \beta)\}\{B(\alpha, \beta)\}

其中:

  • B(·, ·) 是 Beta 函数
  • αβ 是 Beta 分布的参数
  • 期望甲基化比例:μ = α / (α + β)
  • 离散度参数:φ = 1 / (α + β)

φ → 0(即 α + β → ∞)时,beta-binomial 退化为二项分布。

对于两个条件 A 和 B,我们在每个位点或区域检验:

H0:μA=μBH_0: \mu_A = \mu_B H1:μAμBH_1: \mu_A \neq \mu_B

常用检验统计量包括:

Z = \frac\{\hat\{\mu\}_A - \hat\{\mu\}_B\}\{\sqrt\{\text\{Var\}(\hat\{\mu\}_A) + \text\{Var\}(\hat\{\mu\}_B)\}\}

在 beta-binomial 模型下:

{Var}({^μ})={μ(1μ)}{n}[1+(n1)ϕ]\text\{Var\}(\hat\{\mu\}) = \frac\{\mu(1-\mu)\}\{n\} [1 + (n-1)\phi]

比较两个模型的似然:

  • 模型 1(零假设):μ_A = μ_B = μ
  • 模型 2(备择假设):μ_A ≠ μ_B

LR=2log{L(H0)}{L(H1)}LR = -2 \log \frac\{L(H_0)\}\{L(H_1)\}

在大样本下,LR 近似服从 χ² 分布(自由度为 1)。

策略 1:滑动窗口法(概念性说明)

Section titled “策略 1:滑动窗口法(概念性说明)”

最直接的 DMR 检测方法:在基因组上滑动固定大小的窗口,在每个窗口内汇总 CpG 位点的甲基化数据,然后执行统计检验。

注意:实际实现涉及窗口大小优化、步长选择、CpG 覆盖度过滤等复杂策略,远比这里的简化描述复杂。此处的描述仅用于说明基本思路。

策略 2:连续 CpG 分区法(BSmooth 风格,概念性说明)

Section titled “策略 2:连续 CpG 分区法(BSmooth 风格,概念性说明)”

先对甲基化比例进行平滑,然后识别连续差异区域。

基本思路

  1. 平滑每个样本的甲基化信号(使用移动平均、LOESS 或样条平滑)
  2. 计算条件间的差异
  3. 寻找连续显著差异区域

注意:实际 BSmooth 的平滑参数选择、区域合并策略和统计检验方法涉及大量优化和启发式规则。

策略 3:分段常数模型(DSS 风格,概念性说明)

Section titled “策略 3:分段常数模型(DSS 风格,概念性说明)”

假设基因组由若干甲基化水平恒定的区域组成,使用贝叶斯方法推断区域边界,然后在每个推断的区域上执行差异检验。

注意:实际 DSS 使用贝叶斯分层模型,涉及复杂的先验选择、MCMC 采样和区域推断策略,远超此处的简化描述。

以下例子仅用于说明 DMR 检测的基本思路,数值和步骤均为简化。

场景设定

  • 某区域包含多个 CpG 位点
  • 条件 A 的平均甲基化比例约为 0.8
  • 条件 B 的平均甲基化比例约为 0.4
  • 两者差异显著(Δβ ≈ 0.4)

核心思想

  1. 将相邻 CpG 合并为区域
  2. 使用 beta-binomial 模型考虑甲基化比例的过离散特性
  3. 执行统计检验(如 Wald 检验或似然比检验)
  4. 进行多重检验校正

关键点

  • 实际 DMR 检测工具的实现远比此处的简化计算复杂
  • 真实的区域推断涉及平滑、分段和贝叶斯方法
  • 覆盖度差异、批次效应等复杂因素在此例中未体现

本例的目的不是教你如何手工计算,而是帮助理解:DMR 检测本质上是在区域层面检验甲基化比例的统计差异,同时考虑数据的有界性和过离散特性。

通常要求 DMR 至少包含 3-5 个 CpG 位点,以确保统计功效。

  • 单个 CpG:通常要求 ≥ 5× 覆盖
  • 区域汇总:通常要求总覆盖 ≥ 20×

除了统计显著性,通常还要求:

  • |Δβ| ≥ 0.1 或 0.2(绝对甲基化差异)
  • 或 fold change ≥ 2(如果使用比值)

允许 CpG 之间的最大间隔,默认常设为 500-1000 bp。

  • 滑动窗口法:O(G × w),G 是基因组长度,w 是窗口数
  • 平滑方法:O(n × k),n 是 CpG 数,k 是平滑窗口大小
  • 分段方法:O(n log n)O(n²),取决于具体实现
  • 存储所有 CpG 数据:O(n)
  • 存储平滑结果:O(n)
  • 存储候选 DMR:O(r),r 是区域数

总体空间复杂度:O(n + r)

R 包,提供:

  • 滑动窗口 DMR 检测
  • 基于 tile 的区域分析
  • 多重检验校正
  • 可视化功能

R 包,使用:

  • 贝叶斯分层模型
  • 分段常数假设
  • 适用于低覆盖数据

R 包,提供:

  • 平滑方法(BSmooth)
  • 区域检验
  • 与其他组学数据的整合

C++ 工具,特点:

  • 快速
  • 使用分段算法
  • 适用于大规模数据

在 bulk 组织中,甲基化差异可能源于细胞组成变化而非表观遗传变化。解决方案:

  • 使用参考数据解卷积细胞组成
  • 或使用单细胞甲基化数据

结合其他数据:

  • ChIP-seq:组蛋白修饰
  • ATAC-seq:染色质可及性
  • RNA-seq:基因表达

提高 DMR 的生物学解释性。

对于时间序列数据,使用:

  • 时间序列平滑
  • 变点检测
  • 功能数据分析
  • Hebestreit, K., et al. (2013). methylKit: a comprehensive R package for the analysis of genome-wide DNA methylation profiles. Genome Biology, 14(10), R115.
  • Feng, H., et al. (2014). DSS: a Bayesian hierarchical model for detecting differential methylation. Bioinformatics, 30(14), 2060-2065.
  • Hansen, K. D., et al. (2012). BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions. Genome Biology, 13(10), R83.