表观基因组学

快速概览

表观基因组学研究不改变 DNA 序列的可遗传调控机制，包括 DNA 甲基化、组蛋白修饰、染色质可及性等。它是理解基因表达调控、细胞命运决定和疾病发生的关键层面。

核心问题：DNA 序列之外的遗传信息如何存储和传递？
三大支柱：DNA 甲基化、组蛋白修饰、染色质可及性
分析技术：ChIP-seq、ATAC-seq、亚硫酸氢盐测序等

问题背景

核心问题：DNA 序列之外的遗传信息

中心法则告诉我们 DNA 序列编码蛋白质，但生物学中存在许多无法仅用 DNA 序列解释的现象：

细胞分化：同一基因组的干细胞如何分化为神经元、肌肉细胞、血细胞？
基因组印记：某些基因的表达取决于来自父本还是母本
环境记忆：环境暴露如何在分子层面留下持久印记？
疾病易感性：相同基因型的个体为何表现出不同的疾病风险？

表观基因组学（Epigenomics）正是研究这些不改变 DNA 序列的可遗传变化的科学。

表观遗传的核心概念

表观遗传变化的核心特征是：

可逆性：表观遗传标记可以被酶添加或移除，不像 DNA 序列那样固定

DNA 甲基转移酶（DNMTs）添加甲基
TET 家族蛋白主动去除甲基
组蛋白修饰酶系动态调控染色质状态

可遗传性：表观遗传状态可以在细胞分裂中传递给子细胞

DNA 甲基化的维持复制机制
组蛋白修饰的自我强化循环
染色质状态的”分子记忆”

环境响应性：表观遗传是环境-基因相互作用的桥梁

营养、应激、毒素等因素通过表观遗传影响基因表达
表观遗传变化可能持续数代（跨代遗传）

表观遗传的主要类型

DNA 甲基化：

CpG 位点的胞嘧啶甲基化（5mC）
通常与基因沉默相关（尤其是启动子区域）
参与印记、X 失活、转座子沉默

组蛋白修饰：

组蛋白尾部的多种化学修饰（乙酰化、甲基化、磷酸化等）
构成”组蛋白密码”，调控染色质状态
不同修饰组合决定基因激活或抑制

染色质可及性：

开放染色质允许转录因子进入
紧密染色质阻碍调控蛋白结合
由核小体排布、组蛋白变体等因素决定

染色质三维结构：

拓扑关联域（TAD）限制调控相互作用范围
染色质环（loops）连接增强子与启动子
区室化（compartments）分隔活跃与抑制区域

为什么重要

基因表达的多层调控

如果说转录因子结合是调控的”开关”，表观遗传就是调控的”基础架构”：

启动子状态：

DNA 甲基化和组蛋白修饰共同决定启动子是否可及
沉默状态的启动子即使有转录因子也难以激活

增强子活性：

增强子的染色质可及性和组蛋白标记（如 H3K27ac）决定其活性
三维结构决定增强子能否接触目标启动子

转录延伸：

基因体甲基化与转录延伸效率相关
组蛋白修饰影响 RNA 聚合酶 II 的行进

发育与细胞分化

表观遗传是细胞身份的决定因素：

多能性维持：

干细胞维持特定的 DNA 低甲基化和特定组蛋白标记
这些表观遗传状态与多能性因子（如 Oct4、Sox2、Nanog）的表达相互维持

谱系决定：

分化过程中，谱系特异性基因的去甲基化和抑制性标记的建立协同进行
表观遗传变化通常先于基因表达变化

细胞记忆：

一旦建立，表观遗传状态相对稳定，使细胞”记住”其身份
这也解释了为什么 iPSC 重编程需要擦除原有表观遗传标记

疾病发生机制

表观遗传异常是多种疾病的分子基础：

肿瘤：

全基因组低甲基化导致基因组不稳定性
抑癌基因启动子高甲基化导致沉默
组蛋白修饰酶突变改变染色质状态

神经发育疾病：

Rett 综合征：MECP2 突变破坏甲基化依赖的转录调控
脆性 X 综合征：CGG 重复扩展的异常甲基化

代谢疾病：

表观遗传介导的”代谢记忆”
环境-代谢-表观遗传的跨代传递

环境-基因互作

表观遗传是连接环境与基因组的桥梁：

饮食、应激、毒素等通过表观遗传影响基因表达
表观遗传变化可能持续终生，甚至跨代传递
这为疾病预防和干预提供了新视角

核心技术方法

表观基因组学研究依赖多种高通量测序技术，每种技术回答不同层面的问题：

DNA 甲基化检测技术

全基因组重亚硫酸盐测序（WGBS）：

金标准方法，单碱基分辨率检测全基因组甲基化
通过亚硫酸氢盐处理区分甲基化和未甲基化胞嘧啶
适用：全面甲基化图谱、DMR 检测

简化代表性重亚硫酸盐测序（RRBS）：

富集 CpG 密集区域（启动子、CpG 岛）
成本更低，适合大样本队列
适用：启动子甲基化研究、临床样本

甲基化芯片（450K/EPIC）：

针对已知 CpG 位点的靶向检测
高重复性，适合大样本量研究
适用：EWAS（表观遗传关联研究）、临床标志物

蛋白质-DNA 相互作用：ChIP-seq

原理：染色质免疫沉淀 + 高通量测序

应用场景：

转录因子全基因组结合位点图谱
组蛋白修饰（H3K4me3、H3K27ac、H3K27me3 等）分布
染色质调控因子定位

关键要点：

抗体特异性是实验成功的关键
Input 对照对背景估计至关重要
峰调用算法（如 MACS2）识别显著富集区域

染色质可及性：ATAC-seq

原理：Tn5 转座酶优先插入开放染色质，同时完成接头连接

优势：

低细胞量（数千至数万个细胞）
无需抗体，操作简便
同时获得开放区域和核小体位置信息

分析内容：

开放染色质区域识别（peak calling）
转录因子足迹分析（footprinting）
推断活跃的调控元件

染色质三维结构

Hi-C 及其衍生技术：

全基因组染色质相互作用图谱
识别 TAD、染色质环等结构特征
揭示增强子-启动子远程相互作用

标准分析流程

1. 数据预处理

测序质控：

碱基质量评估（Q30 比例）
接头序列检查和去除
重复率评估（文库复杂度指标）

序列比对：

选择适合数据类型的比对工具
DNA 甲基化数据需要专用比对器（Bismark、BSMAP）
去除低质量比对和多重比对

去噪：

去除 PCR duplicates
去除 ENCODE 黑名单区域
线粒体 reads 过滤（尤其对 ATAC-seq）

2. 特定分析

DNA 甲基化分析：

甲基化比例计算（β = 甲基化 reads / 总 reads）
差异甲基化区域（DMR）检测
功能注释（启动子、增强子、基因体）

ChIP-seq 分析：

峰调用（MACS2/MACS3）识别富集区域
峰注释：与基因元件（TSS、enhancer）关联
Motif 分析：发现转录因子结合序列模式
差异结合分析：比较不同条件的结合变化

ATAC-seq 分析：

Tn5 offset 校正（精确定位插入位点）
峰调用识别开放染色质区域
Footprinting 推断转录因子结合
单细胞 ATAC-seq 的降维和聚类

Hi-C 分析：

接触矩阵归一化和平衡
TAD 识别（方向性指数或拓扑方法）
Loop 检测（峰值或统计方法）
区室化分析（PCA 区分 A/B compartment）

3. 整合与解释

多组学整合：

甲基化、组蛋白修饰、染色质可及性的协同分析
染色质状态定义（chromatin states）
增强子-启动子调控网络构建

与功能关联：

表观遗传变化与基因表达的关联
通路富集分析（GO、KEGG）
疾病相关变异与调控元件的 overlap 分析

输入输出与文件格式

标准输入

测序数据：

FASTQ 文件：原始测序 reads
单端或双端测序数据
需要批次信息用于批次效应校正

参考数据：

参考基因组（FASTA）：用于序列比对
基因注释（GTF/GFF）：用于功能注释
元件注释（CpG 岛、增强子等）：用于区域关联

实验元数据：

样本分组信息（对照 vs. 处理、肿瘤 vs. 正常）
批次信息（测序日期、操作人员、试剂批次）
质控指标（细胞数、抗体信息）

标准输出

甲基化数据：

BED 格式：染色体、起始、终止、甲基化比例、覆盖深度
DMR 列表：差异甲基化区域的位置和统计信息

ChIP-seq/ATAC-seq：

narrowPeak/broadPeak：峰位置、信号强度、显著性
bigWig：信号覆盖度轨迹文件（用于基因组浏览器）
BAM：比对后的 reads（用于可视化验证）

三维基因组：

接触矩阵（.hic 或 .cool 格式）：归一化后的染色质相互作用
TAD/loop 注释：结构域边界和环的坐标

差异分析结果：

差异区域列表（DMR、差异峰）
统计检验结果（p-value、FDR、效应量）
功能注释结果（富集分析）

子主题导航

ChIP-seq 总览

组蛋白修饰与转录因子结合位点的标准流程。

进入子主题

MACS2 峰调用算法

泊松模型、局部背景估计与峰识别的统计框架。

进入子主题

ATAC-seq 总览

开放染色质区域识别与染色质状态推断。

进入子主题

DNA 甲基化

WGBS、RRBS 与甲基化水平量化。

进入子主题

DMR 检测算法

Beta-binomial 模型、平滑策略与差异甲基化区域检测。

进入子主题

与其他板块的连接

基因结构和注释基础见参考基因组与注释；
motif 与概率模型见 PWM / PSSM；
单细胞扩展可衔接 scATAC-seq 与多组学分析。

表观基因组学

问题背景

核心问题：DNA 序列之外的遗传信息

表观遗传的核心概念

表观遗传的主要类型

为什么重要

基因表达的多层调控

发育与细胞分化

疾病发生机制

环境-基因互作

核心技术方法

DNA 甲基化检测技术

蛋白质-DNA 相互作用：ChIP-seq

染色质可及性：ATAC-seq

染色质三维结构

标准分析流程

1. 数据预处理

2. 特定分析

3. 整合与解释

输入输出与文件格式

标准输入

标准输出

推荐阅读顺序

子主题导航

ChIP-seq 总览

MACS2 峰调用算法

ATAC-seq 总览

DNA 甲基化

DMR 检测算法

与其他板块的连接