基因预测
基因预测是从基因组序列中识别基因位置和结构的计算过程。真核生物基因常被内含子分割成外显子,需要专门的算法来识别基因边界和剪接位点。
- 统计方法基于基因组中编码区和非编码区的统计差异
- 相似性方法利用已知基因的蛋白产物作为模板
- ORF、剪接位点和密码子偏好是关键特征
- 是基因组注释的核心步骤
什么是基因预测
Section titled “什么是基因预测”基因预测(gene prediction)是从基因组 DNA 序列中识别基因的过程。在原核生物中,基因通常是连续的编码序列,但在真核生物中,基因被内含子(introns)分割成外显子(exons),需要复杂的剪接过程。
为什么基因预测困难
Section titled “为什么基因预测困难”- 人类基因组中只有约 3% 的序列编码蛋白质
- 基因结构复杂:外显子-内含子-外显子…
- 剪接信号弱且有噪声
- 不同物种的基因结构差异大
基因预测的两大路线
Section titled “基因预测的两大路线”基因预测通常分为统计方法(Ab Initio) 和相似性方法(Similarity-based)。
1. 统计方法(Ab Initio Gene Prediction)
Section titled “1. 统计方法(Ab Initio Gene Prediction)”这类方法仅依靠基因组序列本身的统计特征,不依赖外部蛋白质或 cDNA 序列。
- 核心假设:编码区(外显子)和非编码区(内含子、基因间区)在统计学上存在显著差异(如密码子使用频率、GC 含量、六元组频率)。
- 主要技术:隐马尔可夫模型(HMM)。HMM 可以将基因结构(外显子、内含子、剪接位点)建模为”隐藏状态”,而观察到的 DNA 序列为”观测发射”。
- 优势:可以发现全新的、在数据库中没有同源物的基因。
- 局限:对剪接信号弱的基因预测准确率较低,且容易受到基因组噪声干扰。
2. 相似性方法(Similarity-based Gene Prediction)
Section titled “2. 相似性方法(Similarity-based Gene Prediction)”利用已知的蛋白质序列或表达序列(EST/mRNA)作为模板。
- 核心假设:进化上相关的物种往往保留了相似的基因功能和序列。
- 主要技术:序列比对(如 BLAST)和剪接比对(Spliced Alignment)。
- 优势:准确率极高,特别是对于外显子/内含子边界的识别。
- 局限:只能预测与已知序列相似的基因;对于物种特异的新基因无能为力。
统计特征详解
Section titled “统计特征详解”密码子偏好(Codon Usage Bias)
Section titled “密码子偏好(Codon Usage Bias)”虽然多种密码子可以编码同一种氨基酸,但不同物种对这些”同义密码子”的使用并不均衡。
- 六元组频率(Hexamer frequency):连续两个密码子的出现频率在编码区有很强的统计偏好。
- 逻辑:如果一个长 ORF 的密码子组成与该物种已知的编码区特征高度一致,那么它极大概率是一个真实的外显子。
剪接信号识别
Section titled “剪接信号识别”识别外显子与内含子的边界是真核生物基因预测的关键:
- 供体位点(Donor site):外显子结束处,通常包含保守的
GT。 - 受体位点(Acceptor site):内含子结束处,通常包含保守的
AG。 - 算法处理:通常使用位置权重矩阵(PWM) 或复杂的神经网络来评分这些微弱的信号。
相似性预测与”剪接比对”
Section titled “相似性预测与”剪接比对””相似性方法利用已知基因的蛋白产物作为模板。
将已知蛋白序列与目标基因组比对,寻找相似片段。
挑战:
- 蛋白序列比基因组序列长 3 倍
- 内含子中断编码序列
- 进化距离导致序列差异
解决内含子问题的算法:
- 将蛋白序列转换为所有可能的编码路径
- 在基因组中寻找这些路径的片段
- 连接片段形成完整基因结构
基因预测工具
Section titled “基因预测工具”原核生物工具
Section titled “原核生物工具”- GeneMark:基于 HMM 的统计方法
- Glimmer:迭代改进的基因预测
真核生物工具
Section titled “真核生物工具”- GENSCAN:经典 HMM 方法,准确率约 80%
- Augustus:基于证据的预测
- GeneWise:相似性方法
比较基因组学
Section titled “比较基因组学”利用多个物种的基因组比较来改进预测:
- 保守区域更可能是功能性的
- 剪接位点在进化中更保守
评估基因预测
Section titled “评估基因预测”- 灵敏度:正确预测基因的比例
- 特异度:预测基因中正确基因的比例
- 准确率:外显子级别的预测准确性
- EGASP:人类基因组注释评估
- GENCODE:ENCODE 项目的一部分
- 基因组注释:为新测序基因组添加基因信息
- 比较基因组学:识别物种特异基因
- 功能基因组学:理解基因调控网络
- 医学应用:识别疾病相关基因变异
- 外显子(Exon)
- 基因中编码蛋白质的序列片段,最终在 mRNA 中连接在一起。
- 内含子(Intron)
- 基因中的非编码序列,在 mRNA 加工过程中被剪接掉。
- 开放阅读框(ORF)
- 从起始密码子到终止密码子的连续编码序列。
- 剪接位点(Splice Site)
- 内含子与外显子的交界处,通常有保守的序列模式。
- 隐马尔可夫模型(HMM)
- 用于基因预测的概率模型,将基因结构建模为状态序列。