表观基因组学
表观基因组学研究不改变 DNA 序列的可遗传调控机制,包括 DNA 甲基化、组蛋白修饰、染色质可及性等。它是理解基因表达调控、细胞命运决定和疾病发生的关键层面。
- 核心问题:DNA 序列之外的遗传信息如何存储和传递?
- 三大支柱:DNA 甲基化、组蛋白修饰、染色质可及性
- 分析技术:ChIP-seq、ATAC-seq、亚硫酸氢盐测序等
核心问题:DNA 序列之外的遗传信息
Section titled “核心问题:DNA 序列之外的遗传信息”中心法则告诉我们 DNA 序列编码蛋白质,但生物学中存在许多无法仅用 DNA 序列解释的现象:
- 细胞分化:同一基因组的干细胞如何分化为神经元、肌肉细胞、血细胞?
- 基因组印记:某些基因的表达取决于来自父本还是母本
- 环境记忆:环境暴露如何在分子层面留下持久印记?
- 疾病易感性:相同基因型的个体为何表现出不同的疾病风险?
表观基因组学(Epigenomics)正是研究这些不改变 DNA 序列的可遗传变化的科学。
表观遗传的核心概念
Section titled “表观遗传的核心概念”表观遗传变化的核心特征是:
可逆性:表观遗传标记可以被酶添加或移除,不像 DNA 序列那样固定
- DNA 甲基转移酶(DNMTs)添加甲基
- TET 家族蛋白主动去除甲基
- 组蛋白修饰酶系动态调控染色质状态
可遗传性:表观遗传状态可以在细胞分裂中传递给子细胞
- DNA 甲基化的维持复制机制
- 组蛋白修饰的自我强化循环
- 染色质状态的”分子记忆”
环境响应性:表观遗传是环境-基因相互作用的桥梁
- 营养、应激、毒素等因素通过表观遗传影响基因表达
- 表观遗传变化可能持续数代(跨代遗传)
表观遗传的主要类型
Section titled “表观遗传的主要类型”DNA 甲基化:
- CpG 位点的胞嘧啶甲基化(5mC)
- 通常与基因沉默相关(尤其是启动子区域)
- 参与印记、X 失活、转座子沉默
组蛋白修饰:
- 组蛋白尾部的多种化学修饰(乙酰化、甲基化、磷酸化等)
- 构成”组蛋白密码”,调控染色质状态
- 不同修饰组合决定基因激活或抑制
染色质可及性:
- 开放染色质允许转录因子进入
- 紧密染色质阻碍调控蛋白结合
- 由核小体排布、组蛋白变体等因素决定
染色质三维结构:
- 拓扑关联域(TAD)限制调控相互作用范围
- 染色质环(loops)连接增强子与启动子
- 区室化(compartments)分隔活跃与抑制区域
基因表达的多层调控
Section titled “基因表达的多层调控”如果说转录因子结合是调控的”开关”,表观遗传就是调控的”基础架构”:
启动子状态:
- DNA 甲基化和组蛋白修饰共同决定启动子是否可及
- 沉默状态的启动子即使有转录因子也难以激活
增强子活性:
- 增强子的染色质可及性和组蛋白标记(如 H3K27ac)决定其活性
- 三维结构决定增强子能否接触目标启动子
转录延伸:
- 基因体甲基化与转录延伸效率相关
- 组蛋白修饰影响 RNA 聚合酶 II 的行进
发育与细胞分化
Section titled “发育与细胞分化”表观遗传是细胞身份的决定因素:
多能性维持:
- 干细胞维持特定的 DNA 低甲基化和特定组蛋白标记
- 这些表观遗传状态与多能性因子(如 Oct4、Sox2、Nanog)的表达相互维持
谱系决定:
- 分化过程中,谱系特异性基因的去甲基化和抑制性标记的建立协同进行
- 表观遗传变化通常先于基因表达变化
细胞记忆:
- 一旦建立,表观遗传状态相对稳定,使细胞”记住”其身份
- 这也解释了为什么 iPSC 重编程需要擦除原有表观遗传标记
疾病发生机制
Section titled “疾病发生机制”表观遗传异常是多种疾病的分子基础:
肿瘤:
- 全基因组低甲基化导致基因组不稳定性
- 抑癌基因启动子高甲基化导致沉默
- 组蛋白修饰酶突变改变染色质状态
神经发育疾病:
- Rett 综合征:MECP2 突变破坏甲基化依赖的转录调控
- 脆性 X 综合征:CGG 重复扩展的异常甲基化
代谢疾病:
- 表观遗传介导的”代谢记忆”
- 环境-代谢-表观遗传的跨代传递
环境-基因互作
Section titled “环境-基因互作”表观遗传是连接环境与基因组的桥梁:
- 饮食、应激、毒素等通过表观遗传影响基因表达
- 表观遗传变化可能持续终生,甚至跨代传递
- 这为疾病预防和干预提供了新视角
核心技术方法
Section titled “核心技术方法”表观基因组学研究依赖多种高通量测序技术,每种技术回答不同层面的问题:
DNA 甲基化检测技术
Section titled “DNA 甲基化检测技术”全基因组重亚硫酸盐测序(WGBS):
- 金标准方法,单碱基分辨率检测全基因组甲基化
- 通过亚硫酸氢盐处理区分甲基化和未甲基化胞嘧啶
- 适用:全面甲基化图谱、DMR 检测
简化代表性重亚硫酸盐测序(RRBS):
- 富集 CpG 密集区域(启动子、CpG 岛)
- 成本更低,适合大样本队列
- 适用:启动子甲基化研究、临床样本
甲基化芯片(450K/EPIC):
- 针对已知 CpG 位点的靶向检测
- 高重复性,适合大样本量研究
- 适用:EWAS(表观遗传关联研究)、临床标志物
蛋白质-DNA 相互作用:ChIP-seq
Section titled “蛋白质-DNA 相互作用:ChIP-seq”原理:染色质免疫沉淀 + 高通量测序
应用场景:
- 转录因子全基因组结合位点图谱
- 组蛋白修饰(H3K4me3、H3K27ac、H3K27me3 等)分布
- 染色质调控因子定位
关键要点:
- 抗体特异性是实验成功的关键
- Input 对照对背景估计至关重要
- 峰调用算法(如 MACS2)识别显著富集区域
染色质可及性:ATAC-seq
Section titled “染色质可及性:ATAC-seq”原理:Tn5 转座酶优先插入开放染色质,同时完成接头连接
优势:
- 低细胞量(数千至数万个细胞)
- 无需抗体,操作简便
- 同时获得开放区域和核小体位置信息
分析内容:
- 开放染色质区域识别(peak calling)
- 转录因子足迹分析(footprinting)
- 推断活跃的调控元件
染色质三维结构
Section titled “染色质三维结构”Hi-C 及其衍生技术:
- 全基因组染色质相互作用图谱
- 识别 TAD、染色质环等结构特征
- 揭示增强子-启动子远程相互作用
标准分析流程
Section titled “标准分析流程”1. 数据预处理
Section titled “1. 数据预处理”测序质控:
- 碱基质量评估(Q30 比例)
- 接头序列检查和去除
- 重复率评估(文库复杂度指标)
序列比对:
- 选择适合数据类型的比对工具
- DNA 甲基化数据需要专用比对器(Bismark、BSMAP)
- 去除低质量比对和多重比对
去噪:
- 去除 PCR duplicates
- 去除 ENCODE 黑名单区域
- 线粒体 reads 过滤(尤其对 ATAC-seq)
2. 特定分析
Section titled “2. 特定分析”DNA 甲基化分析:
- 甲基化比例计算(β = 甲基化 reads / 总 reads)
- 差异甲基化区域(DMR)检测
- 功能注释(启动子、增强子、基因体)
ChIP-seq 分析:
- 峰调用(MACS2/MACS3)识别富集区域
- 峰注释:与基因元件(TSS、enhancer)关联
- Motif 分析:发现转录因子结合序列模式
- 差异结合分析:比较不同条件的结合变化
ATAC-seq 分析:
- Tn5 offset 校正(精确定位插入位点)
- 峰调用识别开放染色质区域
- Footprinting 推断转录因子结合
- 单细胞 ATAC-seq 的降维和聚类
Hi-C 分析:
- 接触矩阵归一化和平衡
- TAD 识别(方向性指数或拓扑方法)
- Loop 检测(峰值或统计方法)
- 区室化分析(PCA 区分 A/B compartment)
3. 整合与解释
Section titled “3. 整合与解释”多组学整合:
- 甲基化、组蛋白修饰、染色质可及性的协同分析
- 染色质状态定义(chromatin states)
- 增强子-启动子调控网络构建
与功能关联:
- 表观遗传变化与基因表达的关联
- 通路富集分析(GO、KEGG)
- 疾病相关变异与调控元件的 overlap 分析
输入输出与文件格式
Section titled “输入输出与文件格式”测序数据:
- FASTQ 文件:原始测序 reads
- 单端或双端测序数据
- 需要批次信息用于批次效应校正
参考数据:
- 参考基因组(FASTA):用于序列比对
- 基因注释(GTF/GFF):用于功能注释
- 元件注释(CpG 岛、增强子等):用于区域关联
实验元数据:
- 样本分组信息(对照 vs. 处理、肿瘤 vs. 正常)
- 批次信息(测序日期、操作人员、试剂批次)
- 质控指标(细胞数、抗体信息)
甲基化数据:
- BED 格式:染色体、起始、终止、甲基化比例、覆盖深度
- DMR 列表:差异甲基化区域的位置和统计信息
ChIP-seq/ATAC-seq:
- narrowPeak/broadPeak:峰位置、信号强度、显著性
- bigWig:信号覆盖度轨迹文件(用于基因组浏览器)
- BAM:比对后的 reads(用于可视化验证)
三维基因组:
- 接触矩阵(.hic 或 .cool 格式):归一化后的染色质相互作用
- TAD/loop 注释:结构域边界和环的坐标
差异分析结果:
- 差异区域列表(DMR、差异峰)
- 统计检验结果(p-value、FDR、效应量)
- 功能注释结果(富集分析)
推荐阅读顺序
Section titled “推荐阅读顺序”对于表观基因组学初学者,建议按以下顺序阅读:
第一步:理解基础概念
- ChIP-seq 概览 - 学习研究蛋白-DNA 相互作用的标准方法
- ATAC-seq - 理解染色质可及性检测原理
第二步:深入研究表观遗传修饰 3. DNA 甲基化 - 掌握甲基化检测与分析方法
第三步:算法细节 4. MACS2 峰调用算法 - 理解 ChIP-seq 峰调用的统计原理 5. DMR 检测算法 - 学习甲基化差异分析的统计方法 6. Footprinting 算法 - 掌握转录因子足迹分析的算法基础
这种阅读路径从概念理解到技术细节,再到算法原理,循序渐进地建立完整的知识体系。
ChIP-seq 总览
组蛋白修饰与转录因子结合位点的标准流程。
进入子主题MACS2 峰调用算法
泊松模型、局部背景估计与峰识别的统计框架。
进入子主题ATAC-seq 总览
开放染色质区域识别与染色质状态推断。
进入子主题DNA 甲基化
WGBS、RRBS 与甲基化水平量化。
进入子主题DMR 检测算法
Beta-binomial 模型、平滑策略与差异甲基化区域检测。
进入子主题与其他板块的连接
Section titled “与其他板块的连接”- 基因结构和注释基础见 参考基因组与注释;
- motif 与概率模型见 PWM / PSSM;
- 单细胞扩展可衔接 scATAC-seq 与多组学分析。