常见数据格式总览
生物信息学分析中,数据在多个层级间流动与转化。理解每种格式所处的层级——从参考序列、原始观测、定位结果,到注释对象、变异结果和派生指标——是正确使用这些数据的前提。
- 每种格式回答不同层级的问题:FASTA 定义参考框架,FASTQ 承载原始观测,BAM 记录定位结果,VCF 表示变异候选。
- 层级混淆是常见错误根源:将原始观测误认为定位结果,或将定位证据直接等同于生物学结论,都会导致误判。
- 理解层级关系有助于正确解释结果,并识别分析流程中的潜在问题。
在基因组或转录组分析中,从原始测序数据到最终生物学结论,信息需要经过多个层级的转化与提炼。每一层都使用特定的文件格式来承载该层级的信息。一个核心问题是:如何理解这些格式之间的关系,以及它们各自能够(和不能)回答什么问题?
生物信息学中的常见数据格式可按其信息层级分为六类:
| 层级 | 核心问题 | 典型格式 |
|---|---|---|
| 序列层 | 参考序列或组装序列本身是什么? | FASTA |
| 原始观测层 | 测序仪直接产生了哪些 reads,其碱基质量如何? | FASTQ |
| 定位结果层 | 这些 reads 被定位到参考坐标系的什么位置? | SAM / BAM / CRAM |
| 注释与区间层 | 参考基因组上的哪些区间对应基因、转录本或功能区域? | GTF / GFF / BED |
| 变异结果层 | 哪些位点相对参考序列显示出变异证据? | VCF / BCF |
| 派生指标层 | 下游统计、定量或聚合后的结果是什么? | 表达矩阵、覆盖度统计、汇总表 |
理解这些层级的划分,有助于避免将某一层的信息直接当作另一层的结论——这是生物信息学分析中常见的认知陷阱。
层级认知的重要性
Section titled “层级认知的重要性”分析实践中遇到的许多问题,表面上是工具或参数设置问题,实质上源于对数据层级的误解:
- 层级跨越错误:将缺乏坐标信息的 FASTQ 数据直接用于需要定位信息的分析;
- 语义混淆:将 BAM 文件中的定位证据误认为可直接解读的生物学结论,忽视了比对质量、覆盖度等关键指标;
- 背景误置:将 GTF/GFF 等注释文件视为样本特异的实验证据,而非参考基因组的通用功能标注;
- 结论过度外推:将 VCF 文件中的变异候选视为”最终真相”,忽视了其依赖的 caller 算法、过滤阈值及参考版本。
建立清晰的层级认知有助于:
- 定位分析阶段:明确当前处理处于数据流的哪个环节;
- 评估结果可靠性:理解每个结果的推导链条及其依赖的前提条件;
- 识别整合风险:在合并不同来源数据时预判可能的版本或语义冲突。
各层级的信息内涵
Section titled “各层级的信息内涵”以下对比表总结了每个数据层级的核心问题、典型格式及其信息特征:
| 维度 | 这一层回答什么问题 | 典型格式 |
|---|---|---|
| 序列层 | 参考序列或组装序列本身是什么?提供后续分析的空间坐标框架。 | FASTA |
| 原始观测层 | 测序仪直接产生了哪些 reads?碱基识别质量(Phred quality score)如何? | FASTQ |
| 定位结果层 | reads 被定位到参考坐标系的什么位置?比对质量(MAPQ)和序列差异(CIGAR)如何? | SAM / BAM / CRAM |
| 注释与区间层 | 参考基因组上的哪些区间对应基因、转录本、外显子或其他功能区域? | GTF / GFF / BED |
| 变异结果层 | 哪些位点显示出与参考序列的差异?证据强度、基因型推断和质量过滤状态如何? | VCF / BCF |
| 派生指标层 | 经过统计、定量或聚合后的下游结果是什么?(如表达量、覆盖度、变异频率) | 表达矩阵、coverage、summary tables |
各层之间如何交接
Section titled “各层之间如何交接”序列层:FASTA
Section titled “序列层:FASTA”这一层定义的是参考序列或组装序列本身。它提供后续定位、注释和解释的基本框架,但本身还不包含样本证据。
原始观测层:FASTQ
Section titled “原始观测层:FASTQ”这一层持有的是实验直接产生的 reads 与质量值。它代表”样本观测”,但还没有被放进参考坐标系。
定位结果层:SAM / BAM / CRAM
Section titled “定位结果层:SAM / BAM / CRAM”这一层开始把 reads 放到参考背景下理解。此时我们拥有了位置、CIGAR、MAPQ 等信息,但还没有自动得到”生物学解释”。
注释与区间层:GTF / GFF / BED
Section titled “注释与区间层:GTF / GFF / BED”这一层告诉我们参考上的某些区间对应什么对象或区域。它不是样本证据,而是解释定位结果和下游统计所依赖的参考背景。
变异结果层:VCF / BCF
Section titled “变异结果层:VCF / BCF”这一层把定位证据进一步提炼成候选变异及其过滤信息。它比 BAM 更接近”结论”,但仍然依赖参考版本、caller 逻辑与上下文解释。
派生指标层:矩阵、coverage、汇总表
Section titled “派生指标层:矩阵、coverage、汇总表”这一层常常是工作流交付给分析者的最终统计结果,例如表达矩阵、coverage 汇总、feature counts 等。它们通常已经离原始 reads 很远,因此解释时仍要能回溯到前面的层级。
一个典型流程里格式如何流动
Section titled “一个典型流程里格式如何流动”定义参考背景
获得原始观测
放入坐标系
结合注释与任务解释
形成交付结果
示例:DNA-seq 变异检测流程中的格式流转
Section titled “示例:DNA-seq 变异检测流程中的格式流转”以下通过一个简化的变异检测流程,说明各数据格式在分析链条中的作用:
FASTA → FASTQ → BAM → VCF → annotation / summary这一流程中,每一格式转换都伴随着问题层次的跃迁:
| 步骤 | 格式 | 信息转化 | 关键问题 |
|---|---|---|---|
| 1 | FASTA | 建立参考框架 | 分析的坐标背景是什么? |
| 2 | FASTQ | 引入样本观测 | 测序仪读取了哪些序列?质量如何? |
| 3 | BAM | 定位到参考坐标系 | reads 在参考上的位置、比对质量、序列差异 |
| 4 | VCF | 提炼变异证据 | 哪些位点显示变异信号?证据强度如何? |
| 5 | annotation | 生物学解释 | 变异位于什么功能区域?有何已知信息? |
关键认知:VCF 文件虽然接近”最终结果”,但其可靠性依赖于前述所有层级——参考版本是否合适、BAM 比对质量是否充分、caller 算法和过滤参数是否合理。脱离这些背景孤立解读 VCF,容易产生误判。