跳转到内容

ATAC-seq

快速概览

ATAC-seq 是目前研究染色质可及性(Chromatin Accessibility)最主流的技术。它利用 Tn5 转座酶能够「特异性切割开放区域」的特性,仅需少量细胞即可在全基因组范围绘制调控地图。

  • 掌握 Tn5 转座酶的"切割即连接"原理
  • 理解插入片段长度分布(Insert Size Distribution)如何反映核小体排布
  • 掌握 Tn5 插入位点的偏移校正逻辑(+4 bp / -5 bp)
  • 了解转录因子足迹(Footprinting)分析的算法挑战
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

ATAC-seq 的精妙之处在于利用了 Tn5 转座酶 的生化特性:

  • 开放性偏好:Tn5 无法进入紧密包裹在核小体里的 DNA,它只能”降落”在没有蛋白遮挡的开放染色质区域。
  • 切割即连接(Tagmentation):Tn5 在切割 DNA 的瞬间,会自动将测序接头连接到切口末端。
  • 意义:这一步同时完成了片段化和建库,极大地简化了实验流程。

ATAC-seq 的片段长度分布呈现明显的周期性:

  • < 100 bp:对应无核小体区域(Nucleosome-free regions, NFR),通常是转录因子结合的位置。
  • ~200 bp:对应被单个核小体保护的区域。
  • ~400 bp:对应两个核小体。
  • 算法应用:通过对不同长度片段的分离分析,可以区分调控元件的精确位置与核小体的排布。

在进行单碱基分辨率的分析(如 Footprinting)时,必须校正 Tn5 的插入偏差:

  • 现象:由于 Tn5 以二聚体形式结合 DNA,其实际切割位置相对于 Reads 的 5’ 端存在偏移。
  • 校正逻辑
    • 正链 Read:起始位置 + 4 bp
    • 负链 Read:起始位置 - 5 bp
  • 意义:只有经过此校正,才能准确识别转录因子真正”踩”在 DNA 上的足迹。

ATAC-seq 数据的质量评估依赖几个关键指标:

TSS 富集分数(TSS Enrichment Score)

Section titled “TSS 富集分数(TSS Enrichment Score)”

原理:转录起始位点(TSS) 附近通常是开放染色质,Tn5 插入应在此处富集。计算方法是在所有已知 TSS 周围构建插入位点的分布 profile,以背景区域(TSS 两侧远端)的信号水平作为基线,TSS 中心区域的信号高度除以背景即为 TSS 富集分数。

  • 高质量数据:TSS Enrichment > 6
  • 可接受:4—6
  • 低质量:< 2,提示实验失败或样本降解

定义:落在调用峰(Peaks) 内的 reads 占总 mapped reads 的比例。

  • 典型范围:0.2—0.5
  • 过低(< 0.1):提示信噪比差,可能是细胞量不足或 Tn5 活性偏低
  • 与 ChIP-seq 的对比:ATAC-seq 的 FRiP 通常低于 ChIP-seq(后者只富集特定因子的结合区域),这是正常的

高质量的 ATAC-seq 数据应在片段长度分布图中呈现清晰的核小体周期性:

  • < 100 bp 峰:无核小体区域(NFR)
  • ~200 bp 峰:单核小体保护片段
  • ~400 bp 峰:双核小体保护片段

如果周期性模糊或消失,提示核小体信号被噪声淹没。

高重复率(> 50%) 表明文库复杂度低,可能原因是起始细胞量不足或 PCR 扩增过度。

1

质量控制

FastQC 评估原始 reads 质量,检查接头污染和碱基质量分布
2

接头去除

使用 cutadapt/Trim Galore 去除 Nextera 接头序列(ATAC-seq 使用 Tn5 自带接头)
3

序列比对

使用 Bowtie2 或 BWA 将 reads 比对到参考基因组,保留 properly paired 且唯一比对的片段
4

去除重复

使用 Picard MarkDuplicates 去除 PCR 重复,保留唯一片段
5

Tn5 偏移校正

正链 +4 bp,负链 -5 bp,校正 Tn5 二聚体结合偏移
6

线粒体去除

去除比对到线粒体基因组的 reads(通常占比很高,但不包含核基因组调控信息)
7

峰调用

使用 MACS2 (--nomodel --shift -100 --extsize 200) 调用开放染色质区域
维度 ATAC-seq DNase-seq
核心酶 Tn5 转座酶(切割+连接一步完成) DNase I(仅切割,需额外建库步骤)
细胞输入量 低(500--50,000 细胞) 高(10⁶ 量级)
实验复杂度 简单(约 2 小时) 复杂(需优化酶浓度和消化条件)
分辨率 单碱基(经 Tn5 校正后) 单碱基
数据质量 信噪比通常较高 依赖酶消化条件优化
当前流行度 主流(已基本取代 DNase-seq) 历史技术(ENCODE 早期数据主要来源)

与 ChIP-seq 类似,ATAC-seq 使用 MACS2 识别信号富集区。

  • 关键差异:ATAC-seq 强调的是”开放性”,因此峰通常对应启动子、增强子和绝缘子。
  • 参数考量:由于 ATAC-seq 的片段分布复杂(混合了无核小体片段和核小体保护片段),MACS2 通常使用 --nomodel --shift -100 --extsize 200 而非自动建模 fragment size。
  • 功能关联:通过将峰与最近的基因或已知的调控网络关联,推断该区域的生物学功能。

8. 转录因子足迹分析(Footprinting)

Section titled “8. 转录因子足迹分析(Footprinting)”

ATAC-seq 可以识别开放染色质区域,但开放区域不一定意味着转录因子正在结合。Footprinting 旨在解决:在开放的区域中,哪些位置实际上被转录因子占据?

  • 原理:转录因子结合 DNA 后会物理阻碍 Tn5 插入,导致 Motif 中心区域插入显著减少而两侧正常,形成”凹陷”信号。
  • 挑战:Footprinting 是间接证据,依赖高覆盖度(通常 >50M reads)、Tn5 序列偏好校正以及 motif 数据库的完整性。
  • 注意:可靠的 footprint 分析需要严格的统计检验和多重校正,独立实验验证(如 ChIP-seq 或 motif 富集)仍是金标准。

Bulk ATAC-seq 测量的是细胞群体的平均信号,但生物样本通常是异质性的(如肿瘤组织中包含多种细胞类型)。scATAC-seq 将 ATAC-seq 推进到单细胞分辨率。

  • 应用场景:识别不同细胞类型的调控特征、发现稀有细胞亚群的调控程序、追踪细胞分化过程中的染色质动态。
  • 数据特性:单细胞数据极为稀疏——每个细胞仅检测到数千个开放位点(vs. bulk 的数百万),许多位点的状态是”未观测到”而非”未开放”。
  • 核心分析策略
    • 降维与聚类:构建 peak × cell 矩阵,使用 LSI (Latent Semantic Indexing) 降维后聚类。
    • Motif 偏差分析(chromVAR):由于数据太稀疏无法直接检测 footprint,改为计算每个细胞中 motif 的插入偏差以推断转录因子活性差异。
    • 多组学整合:与 scRNA-seq 联合分析,关联染色质开放性与基因表达,构建基因调控网络。

ATAC-seq 的发展代表了表观基因组学技术的进步轨迹:

  • DNase-seq(2000s):高细胞量需求(10⁶ 量级)、操作复杂、耗时较长。
  • FAIRE-seq:操作简便但分辨率有限。
  • ATAC-seq(2013):由 Buenrostro 等人提出,仅需少量细胞即可在全基因组范围绘制调控地图,是目前研究染色质可及性最主流的技术。

关键文献

  • Buenrostro et al. (2013). Nature Methods. —— ATAC-seq 原始论文。
  • Buenrostro et al. (2015). Current Protocols in Molecular Biology. —— 实验方案。
  • Schep et al. (2017). Nature Methods. —— chromVAR:单细胞 ATAC-seq 中的转录因子活性推断。