跳转到内容

FASTQ 格式:原始测序观测的标准化编码

快速概览

FASTQ 是生物信息学分析流程的起点,承载测序仪输出的原始 reads 及其质量分数。理解其结构、质量编码体系和变体,是质控、比对和定量分析的前提。

  • FASTQ 四行结构:标识符、序列、分隔符、质量分数
  • Phred 质量分数将 ASCII 字符映射为碱基错误概率
  • 不同测序平台(Illumina、PacBio、ONT)的 FASTQ 变体与质量编码体系
  • FASTQ 不保存任何参考坐标信息——比对后才建立位置关系
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

FASTQ 格式编码的是原始测序观测(raw sequencing reads)——测序仪直接输出的碱基序列及其对应的质量分数(quality scores)。这是分析流程的起点,承载实验观测的原始证据。

每条测序 read 在 FASTQ 中由四行组成:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTC
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>
行号内容说明
1标识符行(@ 开头)read ID、仪器信息、barcode/UMI(如有)
2碱基序列测序仪调用的碱基(A/C/G/T/N)
3分隔符(+ 开头)可重复标识符,或留空
4质量分数ASCII 编码的 Phred 质量值,与第 2 行等长

FASTQ 是整个分析链条的证据源头。所有下游分析——比对、变异检测、表达定量——的可靠性都取决于 FASTQ 中保存的原始观测质量。

理解 FASTQ 的关键在于认识到:

  • 它只包含”读到了什么”,不包含”它在哪里”——位置信息需要比对后才能获得
  • 质量分数是误差模型的核心——后续算法(如变异检测器)依赖质量值计算置信度
  • 格式变体反映测序技术差异——Illumina 短读长与 PacBio/ONT 长读长的 FASTQ 有不同的特征

Phred 质量分数 QQ 与碱基错误概率 PP 的关系为:

Q=10log10(P)Q = -10 \log_{10}(P)

反过来,错误概率为:

P=10Q/10P = 10^{-Q/10}

Phred Q错误概率 P碱基正确率说明
100.190%低质量阈值
200.0199%常用质控阈值
300.00199.9%Illumina 高质量 reads
400.000199.99%极高置信度

质量分数通过 ASCII 字符编码存储。历史上存在三种编码体系:

编码体系ASCII 范围Phred 范围使用场景
Sanger / Phred+33! (33) ~ ~ (126)0 ~ 93现代 Illumina(1.8+)、PacBio、ONT
Illumina 1.3+ / Phred+64@ (64) ~ ~ (126)0 ~ 62旧版 Illumina(1.3-1.7)
Solexa; (59) ~ ~ (126)-5 ~ 62极早期 Solexa 仪器

关键注意:现代测序数据几乎统一使用 Phred+33 编码。如果看到质量字符从 ! 开始,通常是 Phred+33;如果从 @ 开始,可能是 Phred+64。

质量分数不仅仅是技术指标,它直接影响下游分析:

  • 低质量碱基可能导致错误的变异调用(false positive SNPs)
  • 质量分布偏移可能指示测序周期末端的信号衰减
  • 质量修剪(quality trimming) 是质控流程的标准步骤,去除低质量末端

现代 FASTQ 标识符行包含丰富的元数据。以 Illumina 为例:

@M00123:45:000000000-A1B2C:1:1101:12345:6789 1:N:0:ATCACG
字段说明
M00123:45仪器 ID 和运行 ID
000000000-A1B2CFlowcell ID
1:1101流道(lane)和瓦片(tile)
12345:6789簇的 x/y 坐标
1read 编号(1 或 2,paired-end 时区分)
N是否过滤(Y = 未通过,N = 通过)
0控制位
ATCACGindex/barcode 序列

PacBioOxford Nanopore 的标识符格式不同,通常包含 molecule ID、zmw 坐标等信息。

每个 DNA 片段产生一条 read,存储在一个 FASTQ 文件中。

每个 DNA 片段从两端分别测序,产生 read1 和 read2:

sample_R1.fastq.gz ← read 1 序列
sample_R2.fastq.gz ← read 2 序列

两个文件中的 reads 按顺序一一对应(第 n 行的 read1 与第 n 行的 read2 来自同一个 DNA 片段)。

关键约束:paired-end 分析要求两个 FASTQ 文件的 read 顺序严格同步。如果文件被打乱,配对关系将丢失。

对比FASTQ对比格式
FASTA包含序列 + 质量分数,是原始观测只包含序列,常作为参考序列
SAM/BAM尚未建立参考坐标关系比对后获得位置、CIGAR、MAPQ
VCF只包含原始 reads,无变异推断基于比对证据的变异调用结果

核心原则:FASTQ 是分析流程的输入层,不保存任何比对、注释或变异信息。

  • FASTQ 是分析流程的证据源头,保存原始 reads 和质量分数
  • Phred 质量分数通过 ASCII 编码,现代数据统一使用 Phred+33
  • FASTQ 不保存参考坐标——比对后才建立位置关系
  • 质控和质量修剪是 FASTQ 进入下游分析前的标准步骤