DNA-seq 变异检测总览

快速概览

这是一页把 DNA-seq variant calling 放回完整分析链路的概览：你需要同时看 BAM、VCF、参考版本、过滤逻辑和证据质量，而不是把 caller 当成黑箱。

问题定义

DNA-seq 变异检测要解决的核心问题是：

输入：参考基因组序列 $R$ （如 GRCh38），以及来自待测样本的比对后测序数据（BAM/CRAM 格式）。输出：一组候选变异位点，每个位点包含参考等位基因（REF）、替代等位基因（ALT）、质量分数（QUAL）、以及支持证据的统计摘要。

该问题的本质是在观测到的序列差异中，区分真实的生物学变异与技术噪声、比对假象、测序错误。

变异检测不是单纯”找不同”，而是要在技术噪声和真实信号之间做区分。一个可靠的变异检测流程需要同时考虑：

如果忽略这些层次，就很容易把 caller 的输出误当成”自动得到的真变异”，导致后续分析建立在不可靠的候选集上。

变异检测的可靠性首先取决于输入数据的质量。从 FASTQ 出发，需要系统性地评估：

低质量输入会直接影响后续候选位点的证据强度，导致假阳性或假阴性。

变异检测高度依赖比对（alignment）的质量。比对问题主要包括：

重复区域的多重比对（multi-mapping）：短 reads 在基因组重复区域可能匹配到多个位置，导致 MAPQ 降低，变异判断困难；
Indel 周围的局部比对失败：标准 Smith-Waterman 局部比对在 indel 边界处容易产生错位，需要局部重比对（local realignment）；
参考基因组版本不一致：使用不同参考版本（如 GRCh37 vs GRCh38）会导致坐标偏移，使”变异”实际上只是坐标系差异。

变异检测算法（caller）的核心任务是在以下因素之间做统计区分：

信号来源	特征	判别方法
真实变异	等位基因频率符合孟德尔定律或肿瘤克隆结构；支持 reads 质量高	贝叶斯概率模型、基因型似然比
测序错误	随机分布；低碱基质量；通常仅出现在单条 read	错误率建模、质量分数校准
PCR 重复	相同起始位置的 reads 过多；偏好性扩增	去重（deduplication）、分子标签（UMI）
比对假象	集中在重复区域；MAPQ 低；CIGAR 复杂	多重比对过滤、重复区域屏蔽

最终 VCF 中的 FILTER 字段和 QUAL 字段是 caller 对候选位点可信度的量化。分析者需要理解：

一个简化 DNA-seq variant workflow 可以写成：

FASTQ -> QC -> alignment -> BAM -> candidate variants -> filtering -> VCF annotation -> interpretation

如果某个候选 SNP 只被极少数 reads 支持，而且这些 reads 的位置质量较差，那么它更可能是：

因此变异检测的关键并不是”有差异就算变异”，而是评估证据质量。