基因组注释管线:从序列到功能注释的自动化流程
基因组注释(Genome Annotation)是将原始 DNA 序列转化为功能信息的过程:识别基因位置、外显子-内含子结构、转录本、蛋白质产物、调控元件和非编码 RNA。理解注释管线的步骤、证据来源和质量评估,是正确解读注释结果的前提。
- 注释管线分为两步:结构注释(基因在哪里)+ 功能注释(基因做什么)
- 证据来源:RNA-seq、cDNA、蛋白质同源性、从头预测
- 主要注释系统:Ensembl(自动化)、GENCODE(人工 + 自动)、NCBI RefSeq
- 质量评估:完整性(BUSCO)、一致性(与已知注释比较)
- 注释版本随时间更新,不同版本可能有显著差异
基因组注释是将原始 DNA 序列转化为生物学功能信息的系统化过程。它回答两个核心问题:
- 结构注释(Structural Annotation):基因在哪里?外显子/内含子边界是什么?
- 功能注释(Functional Annotation):基因做什么?编码什么蛋白质?参与什么通路?
DNA 序列 ↓ 结构注释基因位置 → 外显子/内含子 → 转录本 → 蛋白质 ↓ 功能注释功能域 → GO 注释 → 通路 → 调控关系基因组注释是所有下游分析的基础:
- RNA-seq 定量:依赖 GTF 文件识别基因和转录本
- 变异解释:需要注释判断变异是否落在 coding/exonic/splice 区域
- 功能富集:依赖 GO、通路注释解释基因集
- 比较基因组学:需要注释进行跨物种基因映射
关键认知:注释不是”绝对真理”,而是基于计算预测和证据的推断。不同注释系统可能给出不同的基因模型。
注释管线的核心步骤
Section titled “注释管线的核心步骤” 1
重复序列屏蔽
识别并屏蔽重复元素(LINE、SINE、LTR),避免误识别为基因。
重复序列占人类基因组 ~50%,必须先屏蔽再进行基因预测。
2
基因预测
从头预测(ab initio)或基于同源性的基因识别。
从头预测使用 HMM 模型(如 AUGUSTUS),同源性使用 BLAST 比对已知蛋白。
3
转录本构建
整合 RNA-seq、cDNA 证据,构建完整的转录本模型。
RNA-seq 提供剪接位点证据,cDNA 提供完整转录本序列。
4
功能注释
添加 GO 术语、通路信息、蛋白域、酶分类号。
通过 InterProScan、BLAST 比对已知数据库获取功能信息。
5
质量评估
使用 BUSCO 等工具评估注释完整性和一致性。
BUSCO 检测保守单拷贝同源基因的存在/缺失。
三类主要证据
Section titled “三类主要证据”| 证据类型 | 来源 | 优势 | 局限 |
|---|---|---|---|
| RNA-seq | 转录组测序 | 实验证据,覆盖所有表达基因 | 依赖表达水平,低表达基因可能遗漏 |
| cDNA/EST | 全长 cDNA 序列 | 完整转录本结构 | 覆盖不全,质量参差不齐 |
| 蛋白质同源性 | 已知蛋白质序列 | 跨物种保守基因识别 | 物种特异基因可能遗漏 |
从头预测(Ab Initio)
Section titled “从头预测(Ab Initio)”不依赖实验证据,仅使用序列特征进行基因预测:
| 特征 | 说明 |
|---|---|
| 开放阅读框(ORF) | 起始密码子到终止密码子 |
| 剪接位点信号 | GT-AG 规则(供体-受体位点) |
| 密码子偏好性 | 编码区 vs 非编码区的密码子使用差异 |
| 启动子特征 | TATA box、CpG 岛 |
常用工具:AUGUSTUS、GENSCAN、GlimmerHMM
主要注释系统
Section titled “主要注释系统”三大注释体系
Section titled “三大注释体系”| 系统 | 方法 | 更新频率 | 质量 |
|---|---|---|---|
| Ensembl | 自动化管线 | 每年 2-4 次 | 高,自动化 + 质量控制 |
| GENCODE | Ensembl + 人工审编 | 每年 2-4 次 | 最高,人工确认关键基因 |
| NCBI RefSeq | 自动化 + 人工 | 持续更新 | 高,部分人工审编 |
GENCODE 注释层级
Section titled “GENCODE 注释层级”GENCODE 是 ENCODE 项目的官方注释,提供最高质量的人类基因组注释:
| 标签 | 含义 | 置信度 |
|---|---|---|
| KNOWN | 已知基因,实验验证 | 最高 |
| NOVEL | 新预测基因 | 中等 |
| PUTATIVE | 预测但未经实验验证 | 较低 |
注释版本管理
Section titled “注释版本管理”GENCODE v42 (GRCh38) ↑ ↑ 版本号 参考版本| 变化类型 | 说明 | 影响 |
|---|---|---|
| 新增基因 | 新识别的基因 | 计数变化 |
| 删除基因 | 证据不足的基因被移除 | 旧注释中的基因可能不存在 |
| 转录本更新 | 修正外显子边界 | 坐标变化 |
| 功能注释更新 | GO 术语、通路更新 | 功能解释变化 |
关键注意:不同版本的注释可能给出不同的基因数量和结构。分析中应记录使用的注释版本。
BUSCO 评估
Section titled “BUSCO 评估”BUSCO(Benchmarking Universal Single-Copy Orthologs) 评估注释完整性:
busco -i annotation.fa -l vertebrata_odb10 -m geno| 指标 | 含义 | 优质阈值 |
|---|---|---|
| Complete | 找到完整单拷贝同源基因 | > 90% |
| Fragmented | 只找到部分 | < 5% |
| Missing | 未找到 | < 5% |
其他评估方法
Section titled “其他评估方法”| 方法 | 评估内容 |
|---|---|
| 与已知注释比较 | 基因数量、外显子数量分布 |
| RNA-seq 覆盖度 | 注释基因是否被 RNA-seq 支持 |
| 蛋白质同源性 | 注释蛋白是否有同源匹配 |
与真实工具或流程的连接
Section titled “与真实工具或流程的连接”常见概念误区
Section titled “常见概念误区”- 基因组注释将原始 DNA 序列转化为功能信息:结构注释 + 功能注释
- 证据来源:RNA-seq、cDNA、蛋白质同源性、从头预测
- 三大注释系统:Ensembl(自动)、GENCODE(人工 + 自动)、NCBI RefSeq
- 质量评估使用 BUSCO 等工具检测完整性
- 注释版本随时间更新,分析中应记录使用的版本