常见数据格式总览

快速概览

生物信息学分析中，数据在多个层级间流动与转化。理解每种格式所处的层级——从参考序列、原始观测、定位结果，到注释对象、变异结果和派生指标——是正确使用这些数据的前提。

每种格式回答不同层级的问题：FASTA 定义参考框架，FASTQ 承载原始观测，BAM 记录定位结果，VCF 表示变异候选。
层级混淆是常见错误根源：将原始观测误认为定位结果，或将定位证据直接等同于生物学结论，都会导致误判。
理解层级关系有助于正确解释结果，并识别分析流程中的潜在问题。

问题背景

在基因组或转录组分析中，从原始测序数据到最终生物学结论，信息需要经过多个层级的转化与提炼。每一层都使用特定的文件格式来承载该层级的信息。一个核心问题是：如何理解这些格式之间的关系，以及它们各自能够（和不能）回答什么问题？

生物信息学中的常见数据格式可按其信息层级分为六类：

层级	核心问题	典型格式
序列层	参考序列或组装序列本身是什么？	FASTA
原始观测层	测序仪直接产生了哪些 reads，其碱基质量如何？	FASTQ
定位结果层	这些 reads 被定位到参考坐标系的什么位置？	SAM / BAM / CRAM
注释与区间层	参考基因组上的哪些区间对应基因、转录本或功能区域？	GTF / GFF / BED
变异结果层	哪些位点相对参考序列显示出变异证据？	VCF / BCF
派生指标层	下游统计、定量或聚合后的结果是什么？	表达矩阵、覆盖度统计、汇总表

理解这些层级的划分，有助于避免将某一层的信息直接当作另一层的结论——这是生物信息学分析中常见的认知陷阱。

层级认知的重要性

分析实践中遇到的许多问题，表面上是工具或参数设置问题，实质上源于对数据层级的误解：

层级跨越错误：将缺乏坐标信息的 FASTQ 数据直接用于需要定位信息的分析；
语义混淆：将 BAM 文件中的定位证据误认为可直接解读的生物学结论，忽视了比对质量、覆盖度等关键指标；
背景误置：将 GTF/GFF 等注释文件视为样本特异的实验证据，而非参考基因组的通用功能标注；
结论过度外推：将 VCF 文件中的变异候选视为”最终真相”，忽视了其依赖的 caller 算法、过滤阈值及参考版本。

建立清晰的层级认知有助于：

定位分析阶段：明确当前处理处于数据流的哪个环节；
评估结果可靠性：理解每个结果的推导链条及其依赖的前提条件；
识别整合风险：在合并不同来源数据时预判可能的版本或语义冲突。

各层级的信息内涵

以下对比表总结了每个数据层级的核心问题、典型格式及其信息特征：

维度	这一层回答什么问题	典型格式
序列层	参考序列或组装序列本身是什么？提供后续分析的空间坐标框架。	FASTA
原始观测层	测序仪直接产生了哪些 reads？碱基识别质量（Phred quality score）如何？	FASTQ
定位结果层	reads 被定位到参考坐标系的什么位置？比对质量（MAPQ）和序列差异（CIGAR）如何？	SAM / BAM / CRAM
注释与区间层	参考基因组上的哪些区间对应基因、转录本、外显子或其他功能区域？	GTF / GFF / BED
变异结果层	哪些位点显示出与参考序列的差异？证据强度、基因型推断和质量过滤状态如何？	VCF / BCF
派生指标层	经过统计、定量或聚合后的下游结果是什么？（如表达量、覆盖度、变异频率）	表达矩阵、coverage、summary tables

各层之间如何交接

序列层：FASTA

这一层定义的是参考序列或组装序列本身。它提供后续定位、注释和解释的基本框架，但本身还不包含样本证据。

原始观测层：FASTQ

这一层持有的是实验直接产生的 reads 与质量值。它代表”样本观测”，但还没有被放进参考坐标系。

定位结果层：SAM / BAM / CRAM

这一层开始把 reads 放到参考背景下理解。此时我们拥有了位置、CIGAR、MAPQ 等信息，但还没有自动得到”生物学解释”。

注释与区间层：GTF / GFF / BED

这一层告诉我们参考上的某些区间对应什么对象或区域。它不是样本证据，而是解释定位结果和下游统计所依赖的参考背景。

变异结果层：VCF / BCF

这一层把定位证据进一步提炼成候选变异及其过滤信息。它比 BAM 更接近”结论”，但仍然依赖参考版本、caller 逻辑与上下文解释。

派生指标层：矩阵、coverage、汇总表

这一层常常是工作流交付给分析者的最终统计结果，例如表达矩阵、coverage 汇总、feature counts 等。它们通常已经离原始 reads 很远，因此解释时仍要能回溯到前面的层级。

一个典型流程里格式如何流动

序列层

定义参考背景

先有 FASTA，必要时再配合 GTF/GFF 等注释文件建立参考框架。

这是很多后续对象解释的起点，而不是样本证据本身。

观测层

获得原始观测

实验输出 reads，通常保存在 FASTQ。

此时有原始测序证据，但还没有坐标信息。

定位层

放入坐标系

reads 被比对或定位后，得到 SAM/BAM/CRAM。

这里回答的是"放在哪里"，不是"最后意味着什么"。

解释层

结合注释与任务解释

根据具体任务，用 GTF/GFF/BED 或 caller 逻辑把定位结果进一步转成 feature-level 或 variant-level 结果。

不同任务会把同一层证据转成不同语义层的输出。

结果层

形成交付结果

得到 VCF、表达矩阵、coverage summary 等更靠后的结果文件。

结果越往后，越要保留回溯前层的能力。

示例：DNA-seq 变异检测流程中的格式流转

以下通过一个简化的变异检测流程，说明各数据格式在分析链条中的作用：

FASTA → FASTQ → BAM → VCF → annotation / summary

这一流程中，每一格式转换都伴随着问题层次的跃迁：

步骤	格式	信息转化	关键问题
1	FASTA	建立参考框架	分析的坐标背景是什么？
2	FASTQ	引入样本观测	测序仪读取了哪些序列？质量如何？
3	BAM	定位到参考坐标系	reads 在参考上的位置、比对质量、序列差异
4	VCF	提炼变异证据	哪些位点显示变异信号？证据强度如何？
5	annotation	生物学解释	变异位于什么功能区域？有何已知信息？

关键认知：VCF 文件虽然接近”最终结果”，但其可靠性依赖于前述所有层级——参考版本是否合适、BAM 比对质量是否充分、caller 算法和过滤参数是否合理。脱离这些背景孤立解读 VCF，容易产生误判。

常见数据格式总览

问题背景

层级认知的重要性

各层级的信息内涵

各层之间如何交接

序列层：FASTA

原始观测层：FASTQ

定位结果层：SAM / BAM / CRAM

注释与区间层：GTF / GFF / BED

变异结果层：VCF / BCF

派生指标层：矩阵、coverage、汇总表

一个典型流程里格式如何流动

定义参考背景

获得原始观测

放入坐标系

结合注释与任务解释

形成交付结果

示例：DNA-seq 变异检测流程中的格式流转

与真实工具或流程的连接

常见误区

相关页面

常见数据格式总览

问题背景

层级认知的重要性

各层级的信息内涵

各层之间如何交接

序列层：FASTA

原始观测层：FASTQ

定位结果层：SAM / BAM / CRAM

注释与区间层：GTF / GFF / BED

变异结果层：VCF / BCF

派生指标层：矩阵、coverage、汇总表

一个典型流程里格式如何流动

定义参考背景

获得原始观测

放入坐标系

结合注释与任务解释

形成交付结果

示例：DNA-seq 变异检测流程中的格式流转

与真实工具或流程的连接

常见误区

相关页面

常见文件格式概览

参考基因组、坐标系统与注释

DNA-seq 变异检测总览

数据、注释与资源