跳转到内容

数据格式总论

所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

数据格式是生物信息学中连接生物学问题与计算方法的核心抽象层。它们不仅仅是文件存储的容器,更是特定层次生物学概念的标准化编码

  • 参考序列(FASTA)建立了分析的坐标骨架
  • 原始测序数据(FASTQ)承载了实验观测的原始证据
  • 比对结果(SAM/BAM/CRAM)实现了从 read-space 到 reference-space 的坐标映射
  • 功能注释(GTF/GFF)将坐标位置映射到生物学功能
  • 变异候选(VCF/BCF)编码了基于统计推断的序列差异

理解这些格式的设计原理和语义边界,是正确设计分析流程、有效排查错误、以及准确解释结果的基础能力。

本板块属于”数据、注释与资源”大板块,核心任务是建立对生物信息学数据格式的系统性理解——不仅仅是知道文件后缀的含义,而是理解:

  • 每种格式在分析流程中的语义角色
  • 格式之间的依赖关系转换逻辑
  • 常见混淆点错误模式

完成本板块学习后,你应该能够:

  1. 准确分类:判断任意给定文件属于哪一个语义层(参考层、观测层、比对层、注释层、推断层)
  2. 理解依赖:分析分析交付包中各文件的依赖关系(如 VCF 依赖 BAM,BAM 依赖参考序列)
  3. 避免错误:识别并规避常见的格式混淆(如坐标系统不一致、格式互换性误解)
  4. 设计流程:根据分析目标选择合适的数据格式和转换策略
顺序主题目标
1生物信息学数据格式:从存储结构到语义层次建立五种核心格式的完整概念框架
2参考基因组、坐标系统与注释理解格式必须与参考版本和坐标系统协同使用
3DNA-seq 变异检测总览观察 FASTQ→BAM→VCF 的完整转换流程
4RNA-seq 定量分析理解注释格式在表达分析中的关键作用

数据格式的层次结构与转换关系

Section titled “数据格式的层次结构与转换关系”

生物信息学分析流程可以看作是数据在不同抽象层之间的渐进转换过程:

维度 输入层(上游) 输出层(下游)
测序观测层 FASTQ:原始 reads + Phred 质量分数 经质控、比对后 → SAM/BAM:定位结果 + CIGAR + MAPQ
参考框架层 FASTA + GTF/GFF:参考序列 + 功能注释 经特征计数、注释映射 → counts、功能注释、变异影响预测
变异推断层 BAM + reference:比对证据 + 参考序列 经变异检测 → VCF:候选变异 + QUAL/INFO/FORMAT
  • 不可逆性:下游格式不保存上游格式的全部信息(如 VCF 不保留产生变异的原始 reads)
  • 上下文依赖:每个格式的解释都依赖于特定的参考版本和注释版本
  • 语义不等价:名字相近的格式(如 GTF vs BED)可能在特定场景下功能重叠,但表达能力和约束条件有本质差异

理解数据格式需要结合多个相关板块的内容: