DMR 检测算法
DMR(Differentially Methylated Region)检测算法识别不同条件间甲基化状态显著差异的基因组区域,是表观遗传学研究的核心统计问题。
- 核心是使用 beta-binomial 模型建模甲基化比例的有界性和过离散性
- 关键挑战是区域边界的推断与覆盖深度不均的处理
- 常用方法包括滑动窗口、连续 CpG 平滑和贝叶斯分段
核心问题:从单个位点到生物学区域
Section titled “核心问题:从单个位点到生物学区域”DNA 甲基化测序(如 WGBS、RRBS)可以在单碱基分辨率检测每个 CpG 位点的甲基化状态。然而,直接比较单个位点面临多重挑战:
- 覆盖度不均:不同位点的测序深度差异大,低覆盖位点估计不可靠
- 生物学变异:甲基化状态在细胞间存在异质性
- 多重检验问题:全基因组有数百万个 CpG 位点,逐个检验的校正过于保守
- 生物学解释困难:单个位点变化的功能意义不明确
DMR 检测旨在解决这些问题:通过识别差异甲基化区域(Differentially Methylated Regions),将分析从单个位点提升到生物学功能区域。
DMR 检测的生物学动机
Section titled “DMR 检测的生物学动机”生物学上,DNA 甲基化的调控通常作用于区域而非单个位点:
- 启动子区域的甲基化协同变化决定基因表达状态
- 增强子区域的甲基化改变影响调控活性
- 差异甲基化区域(DMR)是疾病生物标志物和调控元件的可靠指标
因此,DMR 检测不仅是统计优化,更是连接分子数据与生物学功能的桥梁。
给定两个条件(如肿瘤 vs. 正常)的甲基化测序数据,DMR 检测算法回答:
基因组上哪些连续区域的甲基化状态在两条件间存在显著差异?
这涉及三个子问题:
- 区域定义:哪些 CpG 位点应被视为一个生物学区域?
- 统计检验:如何检验区域层面的甲基化差异?
- 多重校正:如何处理全基因组扫描的多重检验?
DMR 检测的应用场景
Section titled “DMR 检测的应用场景”DMR 检测在多种生物学研究中发挥关键作用:
癌症表观遗传学:
- 识别肿瘤抑制基因启动子的异常高甲基化
- 发现具有诊断或预后价值的甲基化标志物
- 揭示癌症亚型特异性的表观遗传特征
发育生物学:
- 追踪分化过程中甲基化图谱的动态变化
- 识别细胞类型特异性的调控区域
- 研究印记和 X 失活的建立与维持
疾病关联研究:
- 环境暴露与表观遗传改变的关系
- 衰老相关的甲基化漂移(methylation drift)
- 复杂疾病(如精神疾病)的表观遗传风险因素
统计模型(教学性解释)
Section titled “统计模型(教学性解释)”重要说明:本节使用简化的数学模型帮助理解 DMR 检测的核心思想。实际 DMR 检测工具(如 DSS、methylKit、bsseq)的实现包含大量贝叶斯推断、平滑优化和参数调整策略,与这里的简化描述存在显著差异。请不要将此处的公式和流程直接等同于源码实现。
对于每个 CpG 位点 i,我们观测到:
m_i:支持甲基化的 read 数u_i:支持未甲基化的 read 数n_i = m_i + u_i:总覆盖深度β_i = m_i / n_i:观测甲基化比例
Beta-binomial 模型(教学近似)
Section titled “Beta-binomial 模型(教学近似)”为便于理解,DMR 检测可视为基于以下简化假设。
甲基化比例数据具有两个关键特性:
- 有界性:β ∈ [0, 1]
- 过离散:方差大于二项分布的期望
因此,beta-binomial 模型比简单的二项分布或正态分布更合适:
其中:
B(·, ·)是 Beta 函数α和β是 Beta 分布的参数- 期望甲基化比例:
μ = α / (α + β) - 离散度参数:
φ = 1 / (α + β)
当 φ → 0(即 α + β → ∞)时,beta-binomial 退化为二项分布。
对于两个条件 A 和 B,我们在每个位点或区域检验:
常用检验统计量包括:
Wald 检验
Section titled “Wald 检验”Z = \frac\{\hat\{\mu\}_A - \hat\{\mu\}_B\}\{\sqrt\{\text\{Var\}(\hat\{\mu\}_A) + \text\{Var\}(\hat\{\mu\}_B)\}\}
在 beta-binomial 模型下:
比较两个模型的似然:
- 模型 1(零假设):
μ_A = μ_B = μ - 模型 2(备择假设):
μ_A ≠ μ_B
在大样本下,LR 近似服从 χ² 分布(自由度为 1)。
策略 1:滑动窗口法(概念性说明)
Section titled “策略 1:滑动窗口法(概念性说明)”最直接的 DMR 检测方法:在基因组上滑动固定大小的窗口,在每个窗口内汇总 CpG 位点的甲基化数据,然后执行统计检验。
注意:实际实现涉及窗口大小优化、步长选择、CpG 覆盖度过滤等复杂策略,远比这里的简化描述复杂。此处的描述仅用于说明基本思路。
策略 2:连续 CpG 分区法(BSmooth 风格,概念性说明)
Section titled “策略 2:连续 CpG 分区法(BSmooth 风格,概念性说明)”先对甲基化比例进行平滑,然后识别连续差异区域。
基本思路:
- 平滑每个样本的甲基化信号(使用移动平均、LOESS 或样条平滑)
- 计算条件间的差异
- 寻找连续显著差异区域
注意:实际 BSmooth 的平滑参数选择、区域合并策略和统计检验方法涉及大量优化和启发式规则。
策略 3:分段常数模型(DSS 风格,概念性说明)
Section titled “策略 3:分段常数模型(DSS 风格,概念性说明)”假设基因组由若干甲基化水平恒定的区域组成,使用贝叶斯方法推断区域边界,然后在每个推断的区域上执行差异检验。
注意:实际 DSS 使用贝叶斯分层模型,涉及复杂的先验选择、MCMC 采样和区域推断策略,远超此处的简化描述。
示例(简化示意)
Section titled “示例(简化示意)”以下例子仅用于说明 DMR 检测的基本思路,数值和步骤均为简化。
场景设定:
- 某区域包含多个 CpG 位点
- 条件 A 的平均甲基化比例约为 0.8
- 条件 B 的平均甲基化比例约为 0.4
- 两者差异显著(Δβ ≈ 0.4)
核心思想:
- 将相邻 CpG 合并为区域
- 使用 beta-binomial 模型考虑甲基化比例的过离散特性
- 执行统计检验(如 Wald 检验或似然比检验)
- 进行多重检验校正
关键点:
- 实际 DMR 检测工具的实现远比此处的简化计算复杂
- 真实的区域推断涉及平滑、分段和贝叶斯方法
- 覆盖度差异、批次效应等复杂因素在此例中未体现
本例的目的不是教你如何手工计算,而是帮助理解:DMR 检测本质上是在区域层面检验甲基化比例的统计差异,同时考虑数据的有界性和过离散特性。
关键参数与选择
Section titled “关键参数与选择”最小 CpG 数量
Section titled “最小 CpG 数量”通常要求 DMR 至少包含 3-5 个 CpG 位点,以确保统计功效。
最小覆盖深度
Section titled “最小覆盖深度”- 单个 CpG:通常要求 ≥ 5× 覆盖
- 区域汇总:通常要求总覆盖 ≥ 20×
最小差异阈值
Section titled “最小差异阈值”除了统计显著性,通常还要求:
- |Δβ| ≥ 0.1 或 0.2(绝对甲基化差异)
- 或 fold change ≥ 2(如果使用比值)
最大 gap
Section titled “最大 gap”允许 CpG 之间的最大间隔,默认常设为 500-1000 bp。
- 滑动窗口法:
O(G × w),G 是基因组长度,w 是窗口数 - 平滑方法:
O(n × k),n 是 CpG 数,k 是平滑窗口大小 - 分段方法:
O(n log n)到O(n²),取决于具体实现
- 存储所有 CpG 数据:
O(n) - 存储平滑结果:
O(n) - 存储候选 DMR:
O(r),r 是区域数
总体空间复杂度:O(n + r)
与真实工具或流程的连接
Section titled “与真实工具或流程的连接”methylKit
Section titled “methylKit”R 包,提供:
- 滑动窗口 DMR 检测
- 基于 tile 的区域分析
- 多重检验校正
- 可视化功能
R 包,使用:
- 贝叶斯分层模型
- 分段常数假设
- 适用于低覆盖数据
R 包,提供:
- 平滑方法(BSmooth)
- 区域检验
- 与其他组学数据的整合
metilene
Section titled “metilene”C++ 工具,特点:
- 快速
- 使用分段算法
- 适用于大规模数据
算法优化与变体
Section titled “算法优化与变体”考虑细胞组成差异
Section titled “考虑细胞组成差异”在 bulk 组织中,甲基化差异可能源于细胞组成变化而非表观遗传变化。解决方案:
- 使用参考数据解卷积细胞组成
- 或使用单细胞甲基化数据
结合其他数据:
- ChIP-seq:组蛋白修饰
- ATAC-seq:染色质可及性
- RNA-seq:基因表达
提高 DMR 的生物学解释性。
对于时间序列数据,使用:
- 时间序列平滑
- 变点检测
- 功能数据分析
- Hebestreit, K., et al. (2013). methylKit: a comprehensive R package for the analysis of genome-wide DNA methylation profiles. Genome Biology, 14(10), R115.
- Feng, H., et al. (2014). DSS: a Bayesian hierarchical model for detecting differential methylation. Bioinformatics, 30(14), 2060-2065.
- Hansen, K. D., et al. (2012). BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions. Genome Biology, 13(10), R83.