数据格式总论
数据格式是生物信息学中连接生物学问题与计算方法的核心抽象层。它们不仅仅是文件存储的容器,更是特定层次生物学概念的标准化编码:
- 参考序列(FASTA)建立了分析的坐标骨架
- 原始测序数据(FASTQ)承载了实验观测的原始证据
- 比对结果(SAM/BAM/CRAM)实现了从 read-space 到 reference-space 的坐标映射
- 功能注释(GTF/GFF)将坐标位置映射到生物学功能
- 变异候选(VCF/BCF)编码了基于统计推断的序列差异
理解这些格式的设计原理和语义边界,是正确设计分析流程、有效排查错误、以及准确解释结果的基础能力。
本板块的定位与学习目标
Section titled “本板块的定位与学习目标”本板块属于”数据、注释与资源”大板块,核心任务是建立对生物信息学数据格式的系统性理解——不仅仅是知道文件后缀的含义,而是理解:
- 每种格式在分析流程中的语义角色
- 格式之间的依赖关系和转换逻辑
- 常见混淆点和错误模式
完成本板块学习后,你应该能够:
- 准确分类:判断任意给定文件属于哪一个语义层(参考层、观测层、比对层、注释层、推断层)
- 理解依赖:分析分析交付包中各文件的依赖关系(如 VCF 依赖 BAM,BAM 依赖参考序列)
- 避免错误:识别并规避常见的格式混淆(如坐标系统不一致、格式互换性误解)
- 设计流程:根据分析目标选择合适的数据格式和转换策略
推荐学习路径
Section titled “推荐学习路径”| 顺序 | 主题 | 目标 |
|---|---|---|
| 1 | 生物信息学数据格式:从存储结构到语义层次 | 建立五种核心格式的完整概念框架 |
| 2 | 参考基因组、坐标系统与注释 | 理解格式必须与参考版本和坐标系统协同使用 |
| 3 | DNA-seq 变异检测总览 | 观察 FASTQ→BAM→VCF 的完整转换流程 |
| 4 | RNA-seq 定量分析 | 理解注释格式在表达分析中的关键作用 |
数据格式的层次结构与转换关系
Section titled “数据格式的层次结构与转换关系”生物信息学分析流程可以看作是数据在不同抽象层之间的渐进转换过程:
| 维度 | 输入层(上游) | 输出层(下游) |
|---|---|---|
| 测序观测层 | FASTQ:原始 reads + Phred 质量分数 | 经质控、比对后 → SAM/BAM:定位结果 + CIGAR + MAPQ |
| 参考框架层 | FASTA + GTF/GFF:参考序列 + 功能注释 | 经特征计数、注释映射 → counts、功能注释、变异影响预测 |
| 变异推断层 | BAM + reference:比对证据 + 参考序列 | 经变异检测 → VCF:候选变异 + QUAL/INFO/FORMAT |
层次转换的关键原则
Section titled “层次转换的关键原则”- 不可逆性:下游格式不保存上游格式的全部信息(如 VCF 不保留产生变异的原始 reads)
- 上下文依赖:每个格式的解释都依赖于特定的参考版本和注释版本
- 语义不等价:名字相近的格式(如 GTF vs BED)可能在特定场景下功能重叠,但表达能力和约束条件有本质差异
核心内容导航
Section titled “核心内容导航”数据格式总论:从存储结构到语义层次
系统性理解六种核心格式的语义分层、依赖关系和常见误区。建立"参考层→观测层→证据层→推断层"的完整概念框架。
进入子主题FASTA 格式
参考序列的标准表示。理解坐标骨架、索引机制和参考版本体系。
进入子主题FASTQ 格式
原始测序观测的标准化编码。理解 Phred 质量分数、paired-end 结构和质控流程。
进入子主题SAM/BAM/CRAM 格式
比对结果的标准编码。理解 FLAG、CIGAR、MAPQ 和 TAG 字段。
进入子主题GTF/GFF/BED 格式
基因组注释与区间表示。理解层级结构、坐标系统差异和应用场景。
进入子主题VCF/BCF 格式
变异候选的标准编码。理解基因型、INFO 字段和变异过滤。
进入子主题跨板块知识连接
Section titled “跨板块知识连接”理解数据格式需要结合多个相关板块的内容: