跳转到内容

基因组注释管线:从序列到功能注释的自动化流程

快速概览

基因组注释(Genome Annotation)是将原始 DNA 序列转化为功能信息的过程:识别基因位置、外显子-内含子结构、转录本、蛋白质产物、调控元件和非编码 RNA。理解注释管线的步骤、证据来源和质量评估,是正确解读注释结果的前提。

  • 注释管线分为两步:结构注释(基因在哪里)+ 功能注释(基因做什么)
  • 证据来源:RNA-seq、cDNA、蛋白质同源性、从头预测
  • 主要注释系统:Ensembl(自动化)、GENCODE(人工 + 自动)、NCBI RefSeq
  • 质量评估:完整性(BUSCO)、一致性(与已知注释比较)
  • 注释版本随时间更新,不同版本可能有显著差异
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

基因组注释是将原始 DNA 序列转化为生物学功能信息的系统化过程。它回答两个核心问题:

  1. 结构注释(Structural Annotation):基因在哪里?外显子/内含子边界是什么?
  2. 功能注释(Functional Annotation):基因做什么?编码什么蛋白质?参与什么通路?
DNA 序列
↓ 结构注释
基因位置 → 外显子/内含子 → 转录本 → 蛋白质
↓ 功能注释
功能域 → GO 注释 → 通路 → 调控关系

基因组注释是所有下游分析的基础

  • RNA-seq 定量:依赖 GTF 文件识别基因和转录本
  • 变异解释:需要注释判断变异是否落在 coding/exonic/splice 区域
  • 功能富集:依赖 GO、通路注释解释基因集
  • 比较基因组学:需要注释进行跨物种基因映射

关键认知:注释不是”绝对真理”,而是基于计算预测和证据的推断。不同注释系统可能给出不同的基因模型。

1

重复序列屏蔽

识别并屏蔽重复元素(LINE、SINE、LTR),避免误识别为基因。
重复序列占人类基因组 ~50%,必须先屏蔽再进行基因预测。
2

基因预测

从头预测(ab initio)或基于同源性的基因识别。
从头预测使用 HMM 模型(如 AUGUSTUS),同源性使用 BLAST 比对已知蛋白。
3

转录本构建

整合 RNA-seq、cDNA 证据,构建完整的转录本模型。
RNA-seq 提供剪接位点证据,cDNA 提供完整转录本序列。
4

功能注释

添加 GO 术语、通路信息、蛋白域、酶分类号。
通过 InterProScan、BLAST 比对已知数据库获取功能信息。
5

质量评估

使用 BUSCO 等工具评估注释完整性和一致性。
BUSCO 检测保守单拷贝同源基因的存在/缺失。
证据类型来源优势局限
RNA-seq转录组测序实验证据,覆盖所有表达基因依赖表达水平,低表达基因可能遗漏
cDNA/EST全长 cDNA 序列完整转录本结构覆盖不全,质量参差不齐
蛋白质同源性已知蛋白质序列跨物种保守基因识别物种特异基因可能遗漏

不依赖实验证据,仅使用序列特征进行基因预测:

特征说明
开放阅读框(ORF)起始密码子到终止密码子
剪接位点信号GT-AG 规则(供体-受体位点)
密码子偏好性编码区 vs 非编码区的密码子使用差异
启动子特征TATA box、CpG 岛

常用工具:AUGUSTUS、GENSCAN、GlimmerHMM

系统方法更新频率质量
Ensembl自动化管线每年 2-4 次高,自动化 + 质量控制
GENCODEEnsembl + 人工审编每年 2-4 次最高,人工确认关键基因
NCBI RefSeq自动化 + 人工持续更新高,部分人工审编

GENCODE 是 ENCODE 项目的官方注释,提供最高质量的人类基因组注释:

标签含义置信度
KNOWN已知基因,实验验证最高
NOVEL新预测基因中等
PUTATIVE预测但未经实验验证较低
GENCODE v42 (GRCh38)
↑ ↑
版本号 参考版本
变化类型说明影响
新增基因新识别的基因计数变化
删除基因证据不足的基因被移除旧注释中的基因可能不存在
转录本更新修正外显子边界坐标变化
功能注释更新GO 术语、通路更新功能解释变化

关键注意:不同版本的注释可能给出不同的基因数量和结构。分析中应记录使用的注释版本。

BUSCO(Benchmarking Universal Single-Copy Orthologs) 评估注释完整性:

Terminal window
busco -i annotation.fa -l vertebrata_odb10 -m geno
指标含义优质阈值
Complete找到完整单拷贝同源基因> 90%
Fragmented只找到部分< 5%
Missing未找到< 5%
方法评估内容
与已知注释比较基因数量、外显子数量分布
RNA-seq 覆盖度注释基因是否被 RNA-seq 支持
蛋白质同源性注释蛋白是否有同源匹配
  • 基因组注释将原始 DNA 序列转化为功能信息:结构注释 + 功能注释
  • 证据来源:RNA-seq、cDNA、蛋白质同源性、从头预测
  • 三大注释系统:Ensembl(自动)、GENCODE(人工 + 自动)、NCBI RefSeq
  • 质量评估使用 BUSCO 等工具检测完整性
  • 注释版本随时间更新,分析中应记录使用的版本