跳转到内容

常见数据格式总览

快速概览

生物信息学分析中,数据在多个层级间流动与转化。理解每种格式所处的层级——从参考序列、原始观测、定位结果,到注释对象、变异结果和派生指标——是正确使用这些数据的前提。

  • 每种格式回答不同层级的问题:FASTA 定义参考框架,FASTQ 承载原始观测,BAM 记录定位结果,VCF 表示变异候选。
  • 层级混淆是常见错误根源:将原始观测误认为定位结果,或将定位证据直接等同于生物学结论,都会导致误判。
  • 理解层级关系有助于正确解释结果,并识别分析流程中的潜在问题。
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

在基因组或转录组分析中,从原始测序数据到最终生物学结论,信息需要经过多个层级的转化与提炼。每一层都使用特定的文件格式来承载该层级的信息。一个核心问题是:如何理解这些格式之间的关系,以及它们各自能够(和不能)回答什么问题?

生物信息学中的常见数据格式可按其信息层级分为六类:

层级核心问题典型格式
序列层参考序列或组装序列本身是什么?FASTA
原始观测层测序仪直接产生了哪些 reads,其碱基质量如何?FASTQ
定位结果层这些 reads 被定位到参考坐标系的什么位置?SAM / BAM / CRAM
注释与区间层参考基因组上的哪些区间对应基因、转录本或功能区域?GTF / GFF / BED
变异结果层哪些位点相对参考序列显示出变异证据?VCF / BCF
派生指标层下游统计、定量或聚合后的结果是什么?表达矩阵、覆盖度统计、汇总表

理解这些层级的划分,有助于避免将某一层的信息直接当作另一层的结论——这是生物信息学分析中常见的认知陷阱。

分析实践中遇到的许多问题,表面上是工具或参数设置问题,实质上源于对数据层级的误解:

  • 层级跨越错误:将缺乏坐标信息的 FASTQ 数据直接用于需要定位信息的分析;
  • 语义混淆:将 BAM 文件中的定位证据误认为可直接解读的生物学结论,忽视了比对质量、覆盖度等关键指标;
  • 背景误置:将 GTF/GFF 等注释文件视为样本特异的实验证据,而非参考基因组的通用功能标注;
  • 结论过度外推:将 VCF 文件中的变异候选视为”最终真相”,忽视了其依赖的 caller 算法、过滤阈值及参考版本。

建立清晰的层级认知有助于:

  • 定位分析阶段:明确当前处理处于数据流的哪个环节;
  • 评估结果可靠性:理解每个结果的推导链条及其依赖的前提条件;
  • 识别整合风险:在合并不同来源数据时预判可能的版本或语义冲突。

以下对比表总结了每个数据层级的核心问题、典型格式及其信息特征:

维度 这一层回答什么问题 典型格式
序列层 参考序列或组装序列本身是什么?提供后续分析的空间坐标框架。 FASTA
原始观测层 测序仪直接产生了哪些 reads?碱基识别质量(Phred quality score)如何? FASTQ
定位结果层 reads 被定位到参考坐标系的什么位置?比对质量(MAPQ)和序列差异(CIGAR)如何? SAM / BAM / CRAM
注释与区间层 参考基因组上的哪些区间对应基因、转录本、外显子或其他功能区域? GTF / GFF / BED
变异结果层 哪些位点显示出与参考序列的差异?证据强度、基因型推断和质量过滤状态如何? VCF / BCF
派生指标层 经过统计、定量或聚合后的下游结果是什么?(如表达量、覆盖度、变异频率) 表达矩阵、coverage、summary tables

这一层定义的是参考序列或组装序列本身。它提供后续定位、注释和解释的基本框架,但本身还不包含样本证据。

这一层持有的是实验直接产生的 reads 与质量值。它代表”样本观测”,但还没有被放进参考坐标系。

这一层开始把 reads 放到参考背景下理解。此时我们拥有了位置、CIGAR、MAPQ 等信息,但还没有自动得到”生物学解释”。

这一层告诉我们参考上的某些区间对应什么对象或区域。它不是样本证据,而是解释定位结果和下游统计所依赖的参考背景。

这一层把定位证据进一步提炼成候选变异及其过滤信息。它比 BAM 更接近”结论”,但仍然依赖参考版本、caller 逻辑与上下文解释。

派生指标层:矩阵、coverage、汇总表

Section titled “派生指标层:矩阵、coverage、汇总表”

这一层常常是工作流交付给分析者的最终统计结果,例如表达矩阵、coverage 汇总、feature counts 等。它们通常已经离原始 reads 很远,因此解释时仍要能回溯到前面的层级。

1
序列层

定义参考背景

先有 FASTA,必要时再配合 GTF/GFF 等注释文件建立参考框架。
这是很多后续对象解释的起点,而不是样本证据本身。
2
观测层

获得原始观测

实验输出 reads,通常保存在 FASTQ。
此时有原始测序证据,但还没有坐标信息。
3
定位层

放入坐标系

reads 被比对或定位后,得到 SAM/BAM/CRAM。
这里回答的是"放在哪里",不是"最后意味着什么"。
4
解释层

结合注释与任务解释

根据具体任务,用 GTF/GFF/BED 或 caller 逻辑把定位结果进一步转成 feature-level 或 variant-level 结果。
不同任务会把同一层证据转成不同语义层的输出。
5
结果层

形成交付结果

得到 VCF、表达矩阵、coverage summary 等更靠后的结果文件。
结果越往后,越要保留回溯前层的能力。

示例:DNA-seq 变异检测流程中的格式流转

Section titled “示例:DNA-seq 变异检测流程中的格式流转”

以下通过一个简化的变异检测流程,说明各数据格式在分析链条中的作用:

FASTA → FASTQ → BAM → VCF → annotation / summary

这一流程中,每一格式转换都伴随着问题层次的跃迁:

步骤格式信息转化关键问题
1FASTA建立参考框架分析的坐标背景是什么?
2FASTQ引入样本观测测序仪读取了哪些序列?质量如何?
3BAM定位到参考坐标系reads 在参考上的位置、比对质量、序列差异
4VCF提炼变异证据哪些位点显示变异信号?证据强度如何?
5annotation生物学解释变异位于什么功能区域?有何已知信息?

关键认知:VCF 文件虽然接近”最终结果”,但其可靠性依赖于前述所有层级——参考版本是否合适、BAM 比对质量是否充分、caller 算法和过滤参数是否合理。脱离这些背景孤立解读 VCF,容易产生误判。