跳转到内容

ChIP-seq 概览

快速概览

ChIP-seq 能够以全基因组范围、单碱基分辨率定位特定蛋白质(如转录因子、修饰组蛋白)的结合位点。它将分子生物学的「免疫富集」与计算生物学的「峰调用」完美结合,是解析基因调控网络的标准方法。

  • 掌握 ChIP-seq 的四大核心步骤:交联、片段化、免疫沉淀、测序
  • 辨析窄峰(Narrow Peaks)与宽峰(Broad Peaks)的生物学含义
  • 理解 Input 对照在排除基因组背景偏差中的决定性作用
  • 了解 FRiP、NSC 和 RSC 等关键质量控制指标
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

1. 核心原理:锁定蛋白质的足迹

Section titled “1. 核心原理:锁定蛋白质的足迹”

ChIP-seq 的本质是比较富集:通过特异性抗体抓取目标蛋白,将其结合的 DNA 片段从基因组库中”打捞”出来。

  1. 交联(Cross-linking):用甲醛将蛋白质与 DNA 固定在一起。
  2. 片段化(Fragmentation):通过超声波将 DNA 切成 200-500 bp 的小片段。
  3. 免疫沉淀(IP):加入针对目标蛋白的抗体,拉下结合的片段。
  4. 测序(Sequencing):洗脱蛋白质,将回收的 DNA 进行高通量测序。
ChIP-seq 实验流程概览
ChIP-seq 实验流程:从交联到测序的完整步骤

2. 数据的形态:两种典型的”峰”

Section titled “2. 数据的形态:两种典型的”峰””

根据目标蛋白的结合特性,信号呈现不同的模式:

窄峰(Narrow Peaks)
由转录因子(如 CTCF)产生。峰形尖锐(< 1 kb),反映了蛋白对特定 Motif 的精确识别。
宽峰(Broad Peaks)
由特定的组蛋白修饰(如 H3K27me3)产生。分布平缓,可跨越数 kb,反映了染色质的结构域特征。

基因组的背景信号并不是均匀的。开放区域天然易碎,比对软件对不同区域有偏好。

  • 逻辑:只有 ChIP 样本信号显著高于同位置的 Input(未经过 IP 的背景数据)时,才被判定为一个真实的 Peak

算法(如 MACS2)扫描整个基因组:

  • 建立局部泊松分布模型。
  • 计算 ChIP vs Input 的富集显著性(P-value/FDR)。
  • 确定断点,合并重叠的 Reads。
  • FRiP (Fraction of Reads in Peaks):有多少 Reads 真正落在了峰里。如果这个比例太低,说明实验富集效果差。
  • Motif 富集:对于转录因子,其峰区域内应显著包含该因子的共有序列(如 PWM 模型)。
  • 基因注释:峰是在启动子、增强子还是基因体内?这直接暗示了该蛋白对下游基因的调控作用。

峰调用本质上是局部富集检验

  • 零假设(H₀):某区域的 read 覆盖与背景无异
  • 备择假设(H₁):某区域的 read 覆盖显著高于背景

由于基因组上有数百万个候选窗口,必须进行严格的多重检验校正(如 FDR < 0.01)。

比较不同条件(如处理 vs. 对照)的蛋白质结合变化,需要更精细的统计模型:

  1. 构建计数矩阵:对每个峰,计算各样本的 read 计数,形成峰 × 样本的矩阵。
  2. 统计检验:使用负二项分布模型(类似 RNA-seq 差异表达分析),常用工具包括 DESeq2、edgeR、DiffBind。
  3. 生物学解释:差异峰代表条件特异性的调控变化,需结合基因表达数据验证功能影响。

可视化是理解 ChIP-seq 数据不可或缺的手段:

  • 基因组浏览器(Genome Browser):使用 IGV 或 UCSC Genome Browser 查看局部峰形,可叠加多个样本、基因注释、保守性等信息,适合验证特定区域的结合模式。
  • 热图与信号图谱(Heatmap / Profile Plot):围绕转录起始位点(TSS)或峰中心绘制信号分布,揭示蛋白质结合的空间模式,比较不同样本的信号一致性。
  • 峰集合比较:Venn 图可显示峰集合的交集,Upset plot 更适合比较多组样本的共享峰,帮助理解条件特异性与共享调控。

ChIP-seq 的发展经历了从低通量到高通量的演进:

  • ChIP-on-chip(2000s):使用微阵列检测,分辨率有限。
  • ChIP-seq(2007+):高通量测序革命,实现单碱基分辨率。
  • 单细胞 ChIP-seq(2015+):细胞分辨率调控分析。

奠基性文献包括:

  • Johnson et al. (2007). Genome-wide mapping of in vivo protein-DNA interactions. Science ——早期 ChIP-seq 方法的建立。
  • Zhang et al. (2008). Model-based Analysis of ChIP-Seq (MACS). Genome Biology ——MACS 峰调用算法的提出。
  • ENCODE Project Consortium (2012). An integrated encyclopedia of DNA elements in the human genome. Nature ——大规模 ChIP-seq 的系统性应用。

重要数据资源包括 ENCODE ChIP-seq 数据标准与质控指南、modENCODE 模式生物调控图谱,以及整合已发表 ChIP-seq 数据的 ChIP-Atlas 数据库。