跳转到内容

基因预测

快速概览

基因预测是从基因组序列中识别基因位置和结构的计算过程。真核生物基因常被内含子分割成外显子,需要专门的算法来识别基因边界和剪接位点。

  • 统计方法基于基因组中编码区和非编码区的统计差异
  • 相似性方法利用已知基因的蛋白产物作为模板
  • ORF、剪接位点和密码子偏好是关键特征
  • 是基因组注释的核心步骤
所属板块 基础与数学

对象层、坐标系统、coverage 与概率图模型的共同语言。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

基因预测(gene prediction)是从基因组 DNA 序列中识别基因的过程。在原核生物中,基因通常是连续的编码序列,但在真核生物中,基因被内含子(introns)分割成外显子(exons),需要复杂的剪接过程。

  • 人类基因组中只有约 3% 的序列编码蛋白质
  • 基因结构复杂:外显子-内含子-外显子…
  • 剪接信号弱且有噪声
  • 不同物种的基因结构差异大

基因预测通常分为统计方法(Ab Initio)相似性方法(Similarity-based)

1. 统计方法(Ab Initio Gene Prediction)

Section titled “1. 统计方法(Ab Initio Gene Prediction)”

这类方法仅依靠基因组序列本身的统计特征,不依赖外部蛋白质或 cDNA 序列。

  • 核心假设:编码区(外显子)和非编码区(内含子、基因间区)在统计学上存在显著差异(如密码子使用频率、GC 含量、六元组频率)。
  • 主要技术:隐马尔可夫模型(HMM)。HMM 可以将基因结构(外显子、内含子、剪接位点)建模为”隐藏状态”,而观察到的 DNA 序列为”观测发射”。
  • 优势:可以发现全新的、在数据库中没有同源物的基因。
  • 局限:对剪接信号弱的基因预测准确率较低,且容易受到基因组噪声干扰。

2. 相似性方法(Similarity-based Gene Prediction)

Section titled “2. 相似性方法(Similarity-based Gene Prediction)”

利用已知的蛋白质序列或表达序列(EST/mRNA)作为模板。

  • 核心假设:进化上相关的物种往往保留了相似的基因功能和序列。
  • 主要技术:序列比对(如 BLAST)和剪接比对(Spliced Alignment)
  • 优势:准确率极高,特别是对于外显子/内含子边界的识别。
  • 局限:只能预测与已知序列相似的基因;对于物种特异的新基因无能为力。

虽然多种密码子可以编码同一种氨基酸,但不同物种对这些”同义密码子”的使用并不均衡。

  • 六元组频率(Hexamer frequency):连续两个密码子的出现频率在编码区有很强的统计偏好。
  • 逻辑:如果一个长 ORF 的密码子组成与该物种已知的编码区特征高度一致,那么它极大概率是一个真实的外显子。

识别外显子与内含子的边界是真核生物基因预测的关键:

  • 供体位点(Donor site):外显子结束处,通常包含保守的 GT
  • 受体位点(Acceptor site):内含子结束处,通常包含保守的 AG
  • 算法处理:通常使用位置权重矩阵(PWM) 或复杂的神经网络来评分这些微弱的信号。

相似性方法利用已知基因的蛋白产物作为模板。

将已知蛋白序列与目标基因组比对,寻找相似片段。

挑战

  • 蛋白序列比基因组序列长 3 倍
  • 内含子中断编码序列
  • 进化距离导致序列差异

解决内含子问题的算法:

  1. 将蛋白序列转换为所有可能的编码路径
  2. 在基因组中寻找这些路径的片段
  3. 连接片段形成完整基因结构
  • GeneMark:基于 HMM 的统计方法
  • Glimmer:迭代改进的基因预测
  • GENSCAN:经典 HMM 方法,准确率约 80%
  • Augustus:基于证据的预测
  • GeneWise:相似性方法

利用多个物种的基因组比较来改进预测:

  • 保守区域更可能是功能性的
  • 剪接位点在进化中更保守
  • 灵敏度:正确预测基因的比例
  • 特异度:预测基因中正确基因的比例
  • 准确率:外显子级别的预测准确性
  • EGASP:人类基因组注释评估
  • GENCODE:ENCODE 项目的一部分
  • 基因组注释:为新测序基因组添加基因信息
  • 比较基因组学:识别物种特异基因
  • 功能基因组学:理解基因调控网络
  • 医学应用:识别疾病相关基因变异
外显子(Exon)
基因中编码蛋白质的序列片段,最终在 mRNA 中连接在一起。
内含子(Intron)
基因中的非编码序列,在 mRNA 加工过程中被剪接掉。
开放阅读框(ORF)
从起始密码子到终止密码子的连续编码序列。
剪接位点(Splice Site)
内含子与外显子的交界处,通常有保守的序列模式。
隐马尔可夫模型(HMM)
用于基因预测的概率模型,将基因结构建模为状态序列。