序列比对
序列比对是生物信息学最核心的基础任务之一。
它既是独立问题,也是很多流程的入口:mapping、注释、同源分析、组装和系统发育都与它密切相关。
这一部分在全站中的位置
Section titled “这一部分在全站中的位置”这一节位于”核心方法”大板块内部,把前面的字符串、索引、动态规划与后面的 DNA-seq、RNA-seq、注释和进化分析真正接起来。
推荐阅读顺序
Section titled “推荐阅读顺序”- 编辑距离
- 全局比对与局部比对
- 打分矩阵与 gap 罚分
- 半全局比对
- Affine gap penalty
- Needleman-Wunsch 算法
- Smith-Waterman 算法
- Gotoh 算法
- Hirschberg 算法
- 带状动态规划
- BLAST:基于 seed-and-extend 的局部搜索
- Minimap2 比对算法
- 多序列比对(MSA)
编辑距离
从最基础的动态规划问题出发,建立比对的最短路径直觉。
进入子主题全局比对与局部比对
理解不同任务为什么需要不同的目标函数与路径边界。
进入子主题打分矩阵与 gap 罚分
把字符替换和 gap 代价引入更真实的模型。
进入子主题 比对变体
半全局比对
理解如何处理序列端部的gap,适用于read mapping和重叠检测等场景。
进入子主题Affine gap penalty
理解为什么连续 gap 和碎片 gap 不该被同样对待。
进入子主题 经典算法
Needleman-Wunsch 算法
全局比对的标准动态规划算法,包括完整递推公式与回溯过程。
进入子主题 经典算法
Smith-Waterman 算法
局部比对的标准动态规划算法,理解如何寻找最优局部相似片段。
进入子主题 算法优化
Gotoh 算法
处理 affine gap penalty 的三状态动态规划算法。
进入子主题 算法优化
Hirschberg 算法
线性空间全局比对算法,通过分治策略优化空间复杂度。
进入子主题 算法优化
带状动态规划
限制搜索范围的加速技术,适用于高相似度序列比对。
进入子主题 数据库搜索
BLAST:基于 seed-and-extend 的局部搜索
理解经典 BLAST 如何在大型数据库中结合 seed-and-extend 做局部相似性搜索。
进入子主题 进阶对齐
多序列比对(MSA)
理解为什么多条序列不能简单重复 pairwise DP,以及 progressive alignment 的核心思路。
进入子主题视觉化:alignment 方法与 mapper 技术栈
Section titled “视觉化:alignment 方法与 mapper 技术栈”