跳转到内容

表观基因组学

快速概览

表观基因组学研究不改变 DNA 序列的可遗传调控机制,包括 DNA 甲基化、组蛋白修饰、染色质可及性等。它是理解基因表达调控、细胞命运决定和疾病发生的关键层面。

  • 核心问题:DNA 序列之外的遗传信息如何存储和传递?
  • 三大支柱:DNA 甲基化、组蛋白修饰、染色质可及性
  • 分析技术:ChIP-seq、ATAC-seq、亚硫酸氢盐测序等
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

核心问题:DNA 序列之外的遗传信息

Section titled “核心问题:DNA 序列之外的遗传信息”

中心法则告诉我们 DNA 序列编码蛋白质,但生物学中存在许多无法仅用 DNA 序列解释的现象:

  • 细胞分化:同一基因组的干细胞如何分化为神经元、肌肉细胞、血细胞?
  • 基因组印记:某些基因的表达取决于来自父本还是母本
  • 环境记忆:环境暴露如何在分子层面留下持久印记?
  • 疾病易感性:相同基因型的个体为何表现出不同的疾病风险?

表观基因组学(Epigenomics)正是研究这些不改变 DNA 序列的可遗传变化的科学。

表观遗传变化的核心特征是:

可逆性:表观遗传标记可以被酶添加或移除,不像 DNA 序列那样固定

  • DNA 甲基转移酶(DNMTs)添加甲基
  • TET 家族蛋白主动去除甲基
  • 组蛋白修饰酶系动态调控染色质状态

可遗传性:表观遗传状态可以在细胞分裂中传递给子细胞

  • DNA 甲基化的维持复制机制
  • 组蛋白修饰的自我强化循环
  • 染色质状态的”分子记忆”

环境响应性:表观遗传是环境-基因相互作用的桥梁

  • 营养、应激、毒素等因素通过表观遗传影响基因表达
  • 表观遗传变化可能持续数代(跨代遗传)

DNA 甲基化

  • CpG 位点的胞嘧啶甲基化(5mC)
  • 通常与基因沉默相关(尤其是启动子区域)
  • 参与印记、X 失活、转座子沉默

组蛋白修饰

  • 组蛋白尾部的多种化学修饰(乙酰化、甲基化、磷酸化等)
  • 构成”组蛋白密码”,调控染色质状态
  • 不同修饰组合决定基因激活或抑制

染色质可及性

  • 开放染色质允许转录因子进入
  • 紧密染色质阻碍调控蛋白结合
  • 由核小体排布、组蛋白变体等因素决定

染色质三维结构

  • 拓扑关联域(TAD)限制调控相互作用范围
  • 染色质环(loops)连接增强子与启动子
  • 区室化(compartments)分隔活跃与抑制区域

如果说转录因子结合是调控的”开关”,表观遗传就是调控的”基础架构”:

启动子状态

  • DNA 甲基化和组蛋白修饰共同决定启动子是否可及
  • 沉默状态的启动子即使有转录因子也难以激活

增强子活性

  • 增强子的染色质可及性和组蛋白标记(如 H3K27ac)决定其活性
  • 三维结构决定增强子能否接触目标启动子

转录延伸

  • 基因体甲基化与转录延伸效率相关
  • 组蛋白修饰影响 RNA 聚合酶 II 的行进

表观遗传是细胞身份的决定因素:

多能性维持

  • 干细胞维持特定的 DNA 低甲基化和特定组蛋白标记
  • 这些表观遗传状态与多能性因子(如 Oct4、Sox2、Nanog)的表达相互维持

谱系决定

  • 分化过程中,谱系特异性基因的去甲基化和抑制性标记的建立协同进行
  • 表观遗传变化通常先于基因表达变化

细胞记忆

  • 一旦建立,表观遗传状态相对稳定,使细胞”记住”其身份
  • 这也解释了为什么 iPSC 重编程需要擦除原有表观遗传标记

表观遗传异常是多种疾病的分子基础:

肿瘤

  • 全基因组低甲基化导致基因组不稳定性
  • 抑癌基因启动子高甲基化导致沉默
  • 组蛋白修饰酶突变改变染色质状态

神经发育疾病

  • Rett 综合征:MECP2 突变破坏甲基化依赖的转录调控
  • 脆性 X 综合征:CGG 重复扩展的异常甲基化

代谢疾病

  • 表观遗传介导的”代谢记忆”
  • 环境-代谢-表观遗传的跨代传递

表观遗传是连接环境与基因组的桥梁:

  • 饮食、应激、毒素等通过表观遗传影响基因表达
  • 表观遗传变化可能持续终生,甚至跨代传递
  • 这为疾病预防和干预提供了新视角

表观基因组学研究依赖多种高通量测序技术,每种技术回答不同层面的问题:

全基因组重亚硫酸盐测序(WGBS)

  • 金标准方法,单碱基分辨率检测全基因组甲基化
  • 通过亚硫酸氢盐处理区分甲基化和未甲基化胞嘧啶
  • 适用:全面甲基化图谱、DMR 检测

简化代表性重亚硫酸盐测序(RRBS)

  • 富集 CpG 密集区域(启动子、CpG 岛)
  • 成本更低,适合大样本队列
  • 适用:启动子甲基化研究、临床样本

甲基化芯片(450K/EPIC)

  • 针对已知 CpG 位点的靶向检测
  • 高重复性,适合大样本量研究
  • 适用:EWAS(表观遗传关联研究)、临床标志物

原理:染色质免疫沉淀 + 高通量测序

应用场景

  • 转录因子全基因组结合位点图谱
  • 组蛋白修饰(H3K4me3、H3K27ac、H3K27me3 等)分布
  • 染色质调控因子定位

关键要点

  • 抗体特异性是实验成功的关键
  • Input 对照对背景估计至关重要
  • 峰调用算法(如 MACS2)识别显著富集区域

原理:Tn5 转座酶优先插入开放染色质,同时完成接头连接

优势

  • 低细胞量(数千至数万个细胞)
  • 无需抗体,操作简便
  • 同时获得开放区域和核小体位置信息

分析内容

  • 开放染色质区域识别(peak calling)
  • 转录因子足迹分析(footprinting)
  • 推断活跃的调控元件

Hi-C 及其衍生技术

  • 全基因组染色质相互作用图谱
  • 识别 TAD、染色质环等结构特征
  • 揭示增强子-启动子远程相互作用

测序质控

  • 碱基质量评估(Q30 比例)
  • 接头序列检查和去除
  • 重复率评估(文库复杂度指标)

序列比对

  • 选择适合数据类型的比对工具
  • DNA 甲基化数据需要专用比对器(Bismark、BSMAP)
  • 去除低质量比对和多重比对

去噪

  • 去除 PCR duplicates
  • 去除 ENCODE 黑名单区域
  • 线粒体 reads 过滤(尤其对 ATAC-seq)

DNA 甲基化分析

  • 甲基化比例计算(β = 甲基化 reads / 总 reads)
  • 差异甲基化区域(DMR)检测
  • 功能注释(启动子、增强子、基因体)

ChIP-seq 分析

  • 峰调用(MACS2/MACS3)识别富集区域
  • 峰注释:与基因元件(TSS、enhancer)关联
  • Motif 分析:发现转录因子结合序列模式
  • 差异结合分析:比较不同条件的结合变化

ATAC-seq 分析

  • Tn5 offset 校正(精确定位插入位点)
  • 峰调用识别开放染色质区域
  • Footprinting 推断转录因子结合
  • 单细胞 ATAC-seq 的降维和聚类

Hi-C 分析

  • 接触矩阵归一化和平衡
  • TAD 识别(方向性指数或拓扑方法)
  • Loop 检测(峰值或统计方法)
  • 区室化分析(PCA 区分 A/B compartment)

多组学整合

  • 甲基化、组蛋白修饰、染色质可及性的协同分析
  • 染色质状态定义(chromatin states)
  • 增强子-启动子调控网络构建

与功能关联

  • 表观遗传变化与基因表达的关联
  • 通路富集分析(GO、KEGG)
  • 疾病相关变异与调控元件的 overlap 分析

测序数据

  • FASTQ 文件:原始测序 reads
  • 单端或双端测序数据
  • 需要批次信息用于批次效应校正

参考数据

  • 参考基因组(FASTA):用于序列比对
  • 基因注释(GTF/GFF):用于功能注释
  • 元件注释(CpG 岛、增强子等):用于区域关联

实验元数据

  • 样本分组信息(对照 vs. 处理、肿瘤 vs. 正常)
  • 批次信息(测序日期、操作人员、试剂批次)
  • 质控指标(细胞数、抗体信息)

甲基化数据

  • BED 格式:染色体、起始、终止、甲基化比例、覆盖深度
  • DMR 列表:差异甲基化区域的位置和统计信息

ChIP-seq/ATAC-seq

  • narrowPeak/broadPeak:峰位置、信号强度、显著性
  • bigWig:信号覆盖度轨迹文件(用于基因组浏览器)
  • BAM:比对后的 reads(用于可视化验证)

三维基因组

  • 接触矩阵(.hic 或 .cool 格式):归一化后的染色质相互作用
  • TAD/loop 注释:结构域边界和环的坐标

差异分析结果

  • 差异区域列表(DMR、差异峰)
  • 统计检验结果(p-value、FDR、效应量)
  • 功能注释结果(富集分析)

对于表观基因组学初学者,建议按以下顺序阅读:

第一步:理解基础概念

  1. ChIP-seq 概览 - 学习研究蛋白-DNA 相互作用的标准方法
  2. ATAC-seq - 理解染色质可及性检测原理

第二步:深入研究表观遗传修饰 3. DNA 甲基化 - 掌握甲基化检测与分析方法

第三步:算法细节 4. MACS2 峰调用算法 - 理解 ChIP-seq 峰调用的统计原理 5. DMR 检测算法 - 学习甲基化差异分析的统计方法 6. Footprinting 算法 - 掌握转录因子足迹分析的算法基础

这种阅读路径从概念理解到技术细节,再到算法原理,循序渐进地建立完整的知识体系。