跳转到内容

序列表示与索引

生物信息学的核心任务之一是在海量序列数据中快速找到目标片段。给定一条长达 30 亿碱基的人类参考基因组,如何在毫秒级时间内定位一条 100 bp 的测序 read?这是现代测序数据分析每天都要面对的问题。

本章节按照”表示 → 算法 → 索引 → 应用”的逻辑递进组织:从 k-mer 表示法这一基础工具出发,经过经典字符串匹配算法,到后缀索引结构,再到近似匹配与实际应用。