跳转到内容

Ensembl 基因组注释:基因、转录本与变异注释体系

快速概览

Ensembl 是领先的基因组注释数据库,提供 gene/transcript/protein 层级结构、变异注释和多物种比较基因组学。理解其对象体系(Ensembl ID)、注释流程(automated annotation)和版本系统,是 RNA-seq 定量和变异解释的基础。

  • Ensembl 使用稳定的 Ensembl ID 体系(ENSG/ENST/ENSP),不依赖易变的基因符号
  • 注释流程自动化,定期更新版本号(如 GRCh38.p14 + Ensembl v110)
  • 提供基因、转录本、蛋白质、变异、调控等多层级注释
  • 支持多物种比较(Comparative Genomics)和同源基因映射
  • VEP(Variant Effect Predictor)是标准的变异功能注释工具
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

Ensembl 是欧洲分子生物学实验室(EMBL-EBI)维护的基因组注释数据库,提供自动化的基因注释、转录本结构、变异影响预测和多物种比较基因组学资源。

资源对象类型标识符典型用途
Ensembl Genes基因注释记录ENSG(如 ENSG00000141510)查询基因结构、转录本列表
Ensembl Transcripts转录本模型ENST(如 ENST00000269305)获取转录本序列、外显子结构
Ensembl Proteins蛋白质产物ENSP(如 ENSP00000269305)获取蛋白序列、功能域
Ensembl Variants遗传变异rsID / Ensembl 变异 ID查询变异功能影响
Ensembl Regulation调控元件Regulatory Feature ID查询启动子、增强子区域
Ensembl Compara同源基因多物种同源关系跨物种基因映射

Ensembl 是生物信息学分析的注释标准来源

  • RNA-seq 定量:featureCounts、HTSeq 使用 Ensembl GTF 进行基因/转录本计数
  • 变异注释:VEP 基于 Ensembl 注释体系预测变异功能影响
  • 转录本层级分析:Ensembl 提供完整的 gene → transcript → protein 结构
  • 跨物种比较:Ensembl Compara 支持同源基因识别和系统发育分析

关键认知:Ensembl 使用自动化注释流程,与 NCBI 的人工审编(RefSeq)形成互补。两者注释结果可能不同,但都广泛使用。

Ensembl 使用稳定的 ID 体系,不随基因符号变化而变化:

ID 类型前缀示例说明
GeneENSGENSG00000141510TP53 基因
TranscriptENSTENST00000269305TP53 转录本 1
ProteinENSPENSP00000269305TP53 蛋白产物 1
ExonENSEENSE00000123456外显子
维度 Ensembl ID Gene Symbol
**稳定性** 稳定,不随注释变化 可能随注释更新而变化
**唯一性** 唯一对应一个对象 可能存在歧义
**层级** 区分 gene/transcript/protein 通常只指基因层
**推荐使用** 分析流程和数据库映射 人工阅读和文献交流

TP53 示例

  • Gene: ENSG00000141510 (TP53)
  • Transcripts: ENST00000269305 (canonical), ENST00000503591, ENST00000504986, …
  • 一个基因符号对应多个转录本,转录本之间功能可能不同

Ensembl 使用自动化流程进行基因组注释:

  1. 证据收集:整合 RNA-seq、cDNA、蛋白质同源性等证据
  2. 基因预测:使用基因预测算法(如 AUGUSTUS)识别基因结构
  3. 转录本构建:基于证据构建转录本模型
  4. 功能注释:添加蛋白域、GO 注释、通路信息
  5. 变异注释:预测变异对转录本的影响

Ensembl 版本号随每次更新递增:

版本发布日期主要变化
Ensembl 1102024最新人类注释,新增转录本
Ensembl 1092023多物种更新
Ensembl 752013GRCh38 首次支持

关键注意:不同 Ensembl 版本的注释可能不同(新增/删除转录本、调整基因边界)。分析中应记录使用的版本号。

Ensembl 提供标准 GTF 文件用于下游分析:

chr1 HAVANA gene 11869 14409 . + . gene_id "ENSG00000223972"; gene_name "DDX11L1"; gene_biotype "transcribed_unprocessed_pseudogene";
chr1 HAVANA transcript 11869 14409 . + . gene_id "ENSG00000223972"; transcript_id "ENST00000456328"; gene_name "DDX11L1";
chr1 HAVANA exon 11869 12227 . + . gene_id "ENSG00000223972"; transcript_id "ENST00000456328"; exon_number "1";
属性说明
gene_idEnsembl Gene ID(ENSG)
gene_nameGene Symbol(如 TP53)
transcript_idEnsembl Transcript ID(ENST)
gene_biotype基因生物类型(protein_coding、lncRNA、pseudogene 等)
exon_number外显子序号

Ensembl 为每个基因指定一个canonical transcript(代表转录本),选择标准包括:

  • 最长 CDS(编码序列)
  • 最长蛋白质产物
  • 包含所有常见外显子

使用建议:在基因-level 分析中,使用 canonical transcript 作为代表;在转录本-level 分析中,保留所有转录本。

VEP(Variant Effect Predictor) 是 Ensembl 提供的变异功能注释工具:

  • 输入:VCF 格式或变异列表(chr:pos ref/alt)
  • 输出:每个变异的功能影响注释
注释类型说明
Consequence变异类型(missense、synonymous、frameshift 等)
Gene/Symbol影响的基因和转录本
SIFT/PolyPhen致病性预测分数
CADD综合致病性分数
ClinVar临床意义(如有)
gnomAD群体频率(如有)
Terminal window
# 命令行
vep -i input.vcf -o output.vcf --cache --everything
# Web 界面
# https/www.ensembl.org/Tools/VEP

Ensembl Compara 提供跨物种比较资源:

功能说明
Orthologs直系同源基因(不同物种间的同源基因)
Paralogs旁系同源基因(同一物种内的复制基因)
Gene Trees基因家族系统发育树
Whole-genome alignment全基因组比对

应用示例:将小鼠基因 Trp53 映射到人类 TP53,进行跨物种功能比较。

  • Ensembl 是领先的自动化基因组注释数据库
  • 使用稳定的 Ensembl ID 体系(ENSG/ENST/ENSP),区分基因/转录本/蛋白质层级
  • 提供标准 GTF 文件用于 RNA-seq 定量和变异注释
  • VEP 是标准的变异功能注释工具
  • Ensembl Compara 支持多物种比较基因组学