跳转到内容

GTF/GFF/BED 格式:基因组注释与区间表示

快速概览

GTF/GFF 编码层级化基因组注释(gene-transcript-exon 结构),BED 编码简洁区间集合。理解它们的层级结构、坐标系统差异(1-based vs 0-based)和语义不等价性,是 RNA-seq 定量、peak 分析和功能注释的前提。

  • GTF 是 GFF2 的严格子集,强制 gene_id/transcript_id 属性
  • GFF3 支持更灵活的层级结构和任意属性
  • BED 是扁平区间列表,不强制层级关系
  • GTF 使用 1-based closed 坐标,BED 使用 0-based half-open 坐标
  • 格式选择直接影响下游工具兼容性和区间运算正确性
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

这三种格式都编码基因组上的位置信息,但抽象层次不同:

格式编码对象抽象层次典型用途
GTF/GFF基因结构注释层级化(gene → transcript → exon)RNA-seq 定量、变异功能注释
BED区间集合扁平(无层级关系)Peak 区域、靶标 panel、CNV 区间

九列制表符分隔:

chr1 HAVANA gene 11869 14409 . + . gene_id "ENSG00000223972"; gene_type "transcribed_unprocessed_pseudogene";
列号字段说明
1seqname参考序列名称(chr1)
2source注释来源(HAVANA、ENSEMBL)
3feature特征类型(gene、transcript、exon、CDS)
4start1-based 起始坐标
5end1-based 终止坐标
6score置信度(. 表示无)
7strand链方向(+ / - / .
8phase阅读框相位(0/1/2,仅 CDS 有效)
9attributes键值对属性(gene_id、transcript_id 等)

GFF3 格式(General Feature Format v3)

Section titled “GFF3 格式(General Feature Format v3)”

与 GTF 类似,但:

  • 支持更灵活的层级关系(通过 Parent 属性)
  • 属性使用 = 分隔(GTF 使用空格)
  • 支持任意特征类型
chr1 HAVANA gene 11869 14409 . + . ID=ENSG00000223972;Name=DDX11L1
chr1 HAVANA mRNA 11869 14409 . + . ID=transcript:ENST00000;Parent=ENSG00000223972
chr1 HAVANA exon 11869 12227 . + . Parent=transcript:ENST00000
gene: ENSG00000223972 (chr1:11869-14409)
├── transcript: ENST000001
│ ├── exon: 11869-12227
│ ├── exon: 12613-12721
│ └── exon: 13221-14409
└── transcript: ENST000002
├── exon: 11869-12227
└── exon: 12900-14409
chr1 1000 5000
chr2 300 800
chr1 1000 5000 BRCA1_peak 950 + 1000 5000 255,0,0 2 1500,1200 0,2800
列号字段必需?说明
1chrom染色体
2start0-based 起始
3end终止(half-open)
4name区间名称
5score分数(0-1000)
6strand链方向
7thickStart显示起始(如 CDS)
8thickEnd显示终止
9itemRgbRGB 颜色
10blockCount外显子/块数量
11blockSizes各块大小(逗号分隔)
12blockStarts各块起始(逗号分隔)
  • ChIP-seq peakschr1 1000 1500 peak_1 950
  • Exome panel:靶标区域列表
  • CNV regions:拷贝数变异区间
  • Windowing:基因组分窗统计
维度 GTF/GFF(1-based, closed) BED(0-based, half-open)
起始坐标 1-based:第一个碱基编号为 1 0-based:第一个碱基编号为 0
区间表示 closed:[start, end] 都包含 half-open:[start, end) 包含 start,不包含 end
示例 1-100 表示第 1 到第 100 个碱基(共 100 bp) 0-100 表示第 1 到第 100 个碱基(共 100 bp)
转换 GTF → BED:start - 1 BED → GTF:start + 1

这是最常见的错误来源之一。混淆坐标系统会导致区间偏移 1 bp,可能使 peak 注释错误或变异功能判断失误。

维度 左侧格式 右侧格式
RNA-seq 定量 GTF(featureCounts、HTSeq 需要 gene/transcript 层级结构) BED 不适用(无层级关系,无法区分 gene/exon)
ChIP-seq peaks GTF 可用但过重(只需要区间,不需要 gene 结构) BED 更适合(轻量、区间运算方便)
变异功能注释 GTF/GFF(需要知道变异是否落在 exon/intron/UTR) BED 可用于快速区间查询,但无法区分特征类型
Exome panel 设计 GTF 可提取目标基因的 exon 区间 BED 是标准交付格式(靶标区域列表)
  • GTF/GFF 编码层级化基因组注释(gene → transcript → exon)
  • BED 编码扁平区间集合(peaks、panel、CNV)
  • GTF 使用 1-based closed 坐标,BED 使用 0-based half-open 坐标
  • 格式选择取决于下游工具需求和区间运算类型