概率模型与模式识别
从 motif 到基因预测,很多任务都需要用统计和概率模型描述”观察到的序列是如何产生的”。
这一部分在全站中的位置
Section titled “这一部分在全站中的位置”这一节位于”核心方法”大板块内部,是字符串 / 图模型之外的另一条核心主线,重点回答:面对噪声、隐藏状态和模糊模式时,如何进行概率化建模与推断。
推荐阅读顺序
Section titled “推荐阅读顺序”- Motif 寻找
- Motif discovery 的算法路线
- PWM 与 PSSM
- 隐马尔可夫模型
- Viterbi、Forward 与 Backward
- Profile HMM
- EM算法
- 贝叶斯推断基础
- Gene prediction
概念入口
Motif 寻找
把模式发现问题放回生物序列分析的真实上下文。
进入子主题 算法桥梁
Motif discovery 的算法路线
从穷举、贪心到 randomized search 与 Gibbs sampling,理解 motif discovery 的算法族。
进入子主题 矩阵表示
PWM 与 PSSM
理解位置相关的 motif 表示为什么比固定字符串更接近现实。
进入子主题 概率模型
隐马尔可夫模型
理解隐藏状态、观测序列与 Viterbi 等推断框架。
进入子主题 推断算法
Viterbi、Forward 与 Backward
区分 HMM 中最可能路径、观测概率和位点 posterior 的三类核心问题。
进入子主题 家族模型
Profile HMM
用 HMM 扩展 PWM/PSSM,表示带插入缺失的序列家族模式。
进入子主题 参数估计
EM算法
理解如何处理含隐变量的概率模型参数估计,是motif discovery和聚类等任务的核心算法。
进入子主题 统计推断
贝叶斯推断基础
理解先验、似然和后验的关系,以及如何用贝叶斯方法处理生物信息学中的不确定性。
进入子主题 应用落地
Gene prediction
把序列分段、概率模型和注释生成联系起来。
进入子主题