跳转到内容

变异检测

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

适合谁读 建议在以下阶段阅读

已经理解比对与参考基因组,希望把方法放回 DNA-seq 任务中的读者

建议起点 推荐阅读路径

先看 reads/coverage、常见文件格式与序列比对,再进入 variant calling

变异检测(Variant Calling)要解决的核心问题是:

给定一组来自生物样本的测序 reads 和一个参考基因组序列,识别样本与参考之间存在的所有可信差异,并量化每个候选变异的可靠性。

这些差异包括单核苷酸多态性(SNP)、短插入缺失(InDel),以及更大尺度的结构变异(SV)。该问题的挑战在于:测序数据包含技术噪声、比对不确定性、以及来自重复区域的干扰,必须从中区分真实生物学变异与假象。

许多初学者将 variant calling 理解为”运行一个 caller 工具然后查看 VCF 输出”。然而,真正理解这一过程需要回答以下关键问题:

  • 证据来源:支持一个候选变异的 reads 来自哪些序列片段?它们的定位是否可靠?
  • 比对不确定性:多重比对、indel 周围错位如何影响变异判断?
  • 错误模型:测序错误与真实变异在统计特征上有何区别?
  • 上下文依赖:过滤标准、重复区域、参考基因组版本如何改变结果解释?
  • 变异类型区分:small variants 与结构变异、germline 与 somatic 变异需要不同的检测策略和统计模型。

理解这些问题对于正确解释 caller 输出、设计合适的过滤策略、以及避免下游分析中的假阳性至关重要。

在进入变异检测专题前,建议掌握以下基础:

  1. 测序 reads、coverage 与错误模型
  2. 常见文件格式概览
  3. 序列比对
  4. DNA-seq 变异检测总览
  5. DNA-seq 变异过滤与质量控制
  6. 重复与低复杂度区域的变异检测
  7. Small variants 与结构变异(SV)
  8. Germline 与 somatic 变异