ATAC-seq

快速概览

ATAC-seq 是目前研究染色质可及性（Chromatin Accessibility）最主流的技术。它利用 Tn5 转座酶能够「特异性切割开放区域」的特性，仅需少量细胞即可在全基因组范围绘制调控地图。

掌握 Tn5 转座酶的"切割即连接"原理
理解插入片段长度分布（Insert Size Distribution）如何反映核小体排布
掌握 Tn5 插入位点的偏移校正逻辑（+4 bp / -5 bp）
了解转录因子足迹（Footprinting）分析的算法挑战

1. 核心原理：Tn5 的”降落伞”

ATAC-seq 的精妙之处在于利用了 Tn5 转座酶 的生化特性：

开放性偏好：Tn5 无法进入紧密包裹在核小体里的 DNA，它只能”降落”在没有蛋白遮挡的开放染色质区域。
切割即连接（Tagmentation）：Tn5 在切割 DNA 的瞬间，会自动将测序接头连接到切口末端。
意义：这一步同时完成了片段化和建库，极大地简化了实验流程。

2. 数据的统计特征

插入片段长度分布

ATAC-seq 的片段长度分布呈现明显的周期性：

< 100 bp：对应无核小体区域（Nucleosome-free regions, NFR），通常是转录因子结合的位置。
~200 bp：对应被单个核小体保护的区域。
~400 bp：对应两个核小体。
算法应用：通过对不同长度片段的分离分析，可以区分调控元件的精确位置与核小体的排布。

3. 计算校正：Tn5 偏移

在进行单碱基分辨率的分析（如 Footprinting）时，必须校正 Tn5 的插入偏差：

现象：由于 Tn5 以二聚体形式结合 DNA，其实际切割位置相对于 Reads 的 5’ 端存在偏移。
校正逻辑：
- 正链 Read：起始位置 + 4 bp。
- 负链 Read：起始位置 - 5 bp。
意义：只有经过此校正，才能准确识别转录因子真正”踩”在 DNA 上的足迹。

4. 数据质控指标

ATAC-seq 数据的质量评估依赖几个关键指标：

TSS 富集分数（TSS Enrichment Score）

原理：转录起始位点（TSS）附近通常是开放染色质，Tn5 插入应在此处富集。计算方法是在所有已知 TSS 周围构建插入位点的分布 profile，以背景区域（TSS 两侧远端）的信号水平作为基线，TSS 中心区域的信号高度除以背景即为 TSS 富集分数。

高质量数据：TSS Enrichment > 6
可接受：4—6
低质量：< 2，提示实验失败或样本降解

FRiP (Fraction of Reads in Peaks)

定义：落在调用峰（Peaks）内的 reads 占总 mapped reads 的比例。

典型范围：0.2—0.5
过低（< 0.1）：提示信噪比差，可能是细胞量不足或 Tn5 活性偏低
与 ChIP-seq 的对比：ATAC-seq 的 FRiP 通常低于 ChIP-seq（后者只富集特定因子的结合区域），这是正常的

片段长度分布

高质量的 ATAC-seq 数据应在片段长度分布图中呈现清晰的核小体周期性：

< 100 bp 峰：无核小体区域（NFR）
~200 bp 峰：单核小体保护片段
~400 bp 峰：双核小体保护片段

如果周期性模糊或消失，提示核小体信号被噪声淹没。

重复率

高重复率（> 50%）表明文库复杂度低，可能原因是起始细胞量不足或 PCR 扩增过度。

5. 数据预处理流程

质量控制

FastQC 评估原始 reads 质量，检查接头污染和碱基质量分布

接头去除

使用 cutadapt/Trim Galore 去除 Nextera 接头序列（ATAC-seq 使用 Tn5 自带接头）

序列比对

使用 Bowtie2 或 BWA 将 reads 比对到参考基因组，保留 properly paired 且唯一比对的片段

去除重复

使用 Picard MarkDuplicates 去除 PCR 重复，保留唯一片段

Tn5 偏移校正

正链 +4 bp，负链 -5 bp，校正 Tn5 二聚体结合偏移

线粒体去除

去除比对到线粒体基因组的 reads（通常占比很高，但不包含核基因组调控信息）

峰调用

使用 MACS2 (--nomodel --shift -100 --extsize 200) 调用开放染色质区域

6. 染色质可及性技术对比

维度	ATAC-seq	DNase-seq
核心酶	Tn5 转座酶（切割+连接一步完成）	DNase I（仅切割，需额外建库步骤）
细胞输入量	低（500--50,000 细胞）	高（10⁶ 量级）
实验复杂度	简单（约 2 小时）	复杂（需优化酶浓度和消化条件）
分辨率	单碱基（经 Tn5 校正后）	单碱基
数据质量	信噪比通常较高	依赖酶消化条件优化
当前流行度	主流（已基本取代 DNase-seq）	历史技术（ENCODE 早期数据主要来源）

7. 峰调用（Peak Calling）与注释

与 ChIP-seq 类似，ATAC-seq 使用 MACS2 识别信号富集区。

关键差异：ATAC-seq 强调的是”开放性”，因此峰通常对应启动子、增强子和绝缘子。
参数考量：由于 ATAC-seq 的片段分布复杂（混合了无核小体片段和核小体保护片段），MACS2 通常使用 --nomodel --shift -100 --extsize 200 而非自动建模 fragment size。
功能关联：通过将峰与最近的基因或已知的调控网络关联，推断该区域的生物学功能。

8. 转录因子足迹分析（Footprinting）

ATAC-seq 可以识别开放染色质区域，但开放区域不一定意味着转录因子正在结合。Footprinting 旨在解决：在开放的区域中，哪些位置实际上被转录因子占据？

原理：转录因子结合 DNA 后会物理阻碍 Tn5 插入，导致 Motif 中心区域插入显著减少而两侧正常，形成”凹陷”信号。
挑战：Footprinting 是间接证据，依赖高覆盖度（通常 >50M reads）、Tn5 序列偏好校正以及 motif 数据库的完整性。
注意：可靠的 footprint 分析需要严格的统计检验和多重校正，独立实验验证（如 ChIP-seq 或 motif 富集）仍是金标准。

9. 单细胞 ATAC-seq (scATAC-seq)

Bulk ATAC-seq 测量的是细胞群体的平均信号，但生物样本通常是异质性的（如肿瘤组织中包含多种细胞类型）。scATAC-seq 将 ATAC-seq 推进到单细胞分辨率。

应用场景：识别不同细胞类型的调控特征、发现稀有细胞亚群的调控程序、追踪细胞分化过程中的染色质动态。
数据特性：单细胞数据极为稀疏——每个细胞仅检测到数千个开放位点（vs. bulk 的数百万），许多位点的状态是”未观测到”而非”未开放”。
核心分析策略：
- 降维与聚类：构建 peak × cell 矩阵，使用 LSI (Latent Semantic Indexing) 降维后聚类。
- Motif 偏差分析（chromVAR）：由于数据太稀疏无法直接检测 footprint，改为计算每个细胞中 motif 的插入偏差以推断转录因子活性差异。
- 多组学整合：与 scRNA-seq 联合分析，关联染色质开放性与基因表达，构建基因调控网络。

常见误区

开放染色质 ≠ 基因一定在表达：
开放染色质是转录的必要条件而非充分条件。一个区域可以开放但不被使用——转录因子可能未结合、必需的协同因子可能缺失、或染色质需要额外的修饰才能激活。解释 ATAC-seq 结果时，需结合基因表达数据（如 RNA-seq）才能确认调控是否转化为转录输出。
峰附近的基因不一定是靶基因：
增强子可以调控远距离的基因，跨越数十甚至数百 kb。简单的"最近基因"策略会错过许多真实的调控关系。正确的关联策略需要考虑三维基因组结构（如 Hi-C 数据）、已知增强子-启动子关联以及表达相关性分析。
ATAC-seq 不能替代 ChIP-seq：
两者回答不同层次的问题：ATAC-seq 回答"哪里开放、哪些调控元件潜在活跃"，ChIP-seq 回答"某个特定因子在哪里结合"。Footprinting 只能推断转录因子活性，而 ChIP-seq 提供直接的结合证据。两者互补而非替代。

10. 历史背景与关键文献

ATAC-seq 的发展代表了表观基因组学技术的进步轨迹：

DNase-seq（2000s）：高细胞量需求（10⁶ 量级）、操作复杂、耗时较长。
FAIRE-seq：操作简便但分辨率有限。
ATAC-seq（2013）：由 Buenrostro 等人提出，仅需少量细胞即可在全基因组范围绘制调控地图，是目前研究染色质可及性最主流的技术。

关键文献：

Buenrostro et al. (2013). Nature Methods. —— ATAC-seq 原始论文。
Buenrostro et al. (2015). Current Protocols in Molecular Biology. —— 实验方案。
Schep et al. (2017). Nature Methods. —— chromVAR：单细胞 ATAC-seq 中的转录因子活性推断。