跳转到内容

FASTA 格式:参考序列的标准表示

快速概览

FASTA 编码参考序列(reference sequence)——整个生物信息学坐标系统的骨架。理解其简单结构、索引机制(.fai)和版本体系,是比对、注释和变异检测的前提。

  • FASTA 结构简单:定义行(`>` 开头)+ 序列行
  • 只包含序列字符,不包含质量分数、比对位置或功能注释
  • 参考基因组 FASTA 通常经过索引(samtools faidx)以支持快速随机访问
  • 不同参考版本(GRCh37 vs GRCh38)的 FASTA 序列不同,不能混用
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

FASTA 格式编码的是参考序列(reference sequence)——一个生物分子序列(DNA、RNA 或蛋白质)的字符串表示。它是整个生物信息学坐标系统的骨架。

>chr1 Homo sapiens chromosome 1, GRCh38.p14 Primary Assembly
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
ACATAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTA
部分说明
定义行> 开头)序列标识符和描述信息
序列行碱基或氨基酸字符(可跨多行)
  • 只包含序列本身,不包含任何元数据(如测序质量、比对位置、功能注释)
  • 支持 IUPAC 模糊字符(如 N 表示未知碱基)
  • 序列行通常按固定宽度换行(如 60 或 80 字符),但非严格要求

FASTA 是分析流程的坐标骨架

  • 比对:所有 reads 都相对于 FASTA 中的参考序列进行定位
  • 注释:GTF/GFF 中的坐标必须与 FASTA 版本匹配
  • 变异检测:REF 等位基因直接从 FASTA 中提取
  • 可视化:基因组浏览器以 FASTA 为坐标基准

关键认知:FASTA 定义了”坐标系的原点”。如果参考版本不一致,所有下游分析(比对、注释、变异)的坐标都将错位。

人类参考基因组 FASTA 通常包含所有染色体和 scaffolds:

>chr1 Homo sapiens chromosome 1, GRCh38.p14 Primary Assembly
ACATAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTA...
>chr2 Homo sapiens chromosome 2, GRCh38.p14 Primary Assembly
GCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG...
...
>chrX Homo sapiens chromosome X, GRCh38.p14 Primary Assembly
TAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT...
>chrM Homo sapiens mitochondrion, GRCh38.p14 Primary Assembly
GCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG...
标识符说明
chr1 - chr22常染色体
chrX, chrY性染色体
chrM线粒体基因组
chrUn_*未定位 scaffolds
chr*_alt替代 haplotype(GRCh38 新增)
chr*_decoydecoy 序列(用于捕获未比对 reads)

由于参考基因组 FASTA 文件很大(人类 ~3 GB),直接随机访问特定区域效率低。samtools faidx 生成索引文件支持快速查询:

Terminal window
samtools faidx reference.fa
# 生成 reference.fa.fai
chr1 248956422 52 60 61
chr2 242193529 253154394 60 61
说明
1序列名称
2序列长度
3文件中起始字节偏移
4每行碱基数
5每行字节数(含换行符)
Terminal window
# 提取 chr1:1000-1050
samtools faidx reference.fa chr1:1000-1050

大型 FASTA 文件可使用 bgzip 压缩(而非普通 gzip),支持随机访问:

Terminal window
bgzip reference.fa
# 生成 reference.fa.gz
samtools faidx reference.fa.gz

bgzip 与普通 gzip 的区别:bgzip 将文件分块压缩,每块可独立解压,支持 tabixfaidx 随机访问。

对比FASTA对比格式
FASTQ只包含序列,不带质量分数包含序列 + 质量分数,是原始 reads
BAM只包含参考序列,无比对信息包含 reads 在参考上的定位结果
GTF只包含序列字符,无功能注释包含基因结构注释

核心原则:FASTA 是参考层,不是证据层或注释层。它回答”坐标 X 处的碱基是什么”,不回答”这个位置有什么功能”或”这个样本在这里有什么变异”。

不同参考版本的 FASTA 序列可能不同:

差异类型示例
补丁更新GRCh38.p12 → GRCh38.p14(修复错误序列)
主版本更新GRCh37 → GRCh38(新增 alternate loci、decoy)
命名差异chr1(UCSC)vs 1(Ensembl)

关键注意:不同版本的 FASTA 不能混用。使用 GRCh37 的 BAM 配合 GRCh38 的 FASTA 会导致坐标错误。

  • FASTA 编码参考序列,是整个分析流程的坐标骨架
  • 结构简单:定义行 + 序列行,不含质量或注释信息
  • .fai 索引支持快速随机访问
  • 参考版本必须与 BAM、GTF、VCF 保持一致