跳转到内容

DNA-seq 变异检测总览

快速概览

这是一页把 DNA-seq variant calling 放回完整分析链路的概览:你需要同时看 BAM、VCF、参考版本、过滤逻辑和证据质量,而不是把 caller 当成黑箱。

  • 如果你刚开始接触变异检测,先把 FASTQ → BAM → VCF 的层级关系理顺。
  • 这页重点是流程和判断逻辑,不是具体软件命令。
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

DNA-seq 变异检测要解决的核心问题是:

输入:参考基因组序列 RR(如 GRCh38),以及来自待测样本的比对后测序数据(BAM/CRAM 格式)。
输出:一组候选变异位点,每个位点包含参考等位基因(REF)、替代等位基因(ALT)、质量分数(QUAL)、以及支持证据的统计摘要。

该问题的本质是在观测到的序列差异中,区分真实的生物学变异技术噪声、比对假象、测序错误

变异检测不是单纯”找不同”,而是要在技术噪声和真实信号之间做区分。一个可靠的变异检测流程需要同时考虑:

  • 数据层级:FASTQ 中的原始碱基质量、BAM 中的比对证据、VCF 中的变异质量分数之间的层级关系;
  • 比对不确定性:重复区域的多重比对、indel 周围的局部重比对失败如何影响变异判断;
  • 统计建模:测序深度的泊松波动、碱基错误率的系统偏差、strand bias 等偏好性;
  • 过滤逻辑:硬阈值过滤与机器学习模型过滤的权衡;
  • 注释与解释:数据库版本、参考基因组版本、功能注释对下游分析的影响。

如果忽略这些层次,就很容易把 caller 的输出误当成”自动得到的真变异”,导致后续分析建立在不可靠的候选集上。

变异检测的可靠性首先取决于输入数据的质量。从 FASTQ 出发,需要系统性地评估:

  • 碱基质量分数(Phred score)Q=10log10P(error)Q = -10 \log_{10} P(\text{error}),反映每个碱基的测序可信度;
  • 接头与引物污染:文库构建过程中引入的外源序列需要在比对前去除;
  • 覆盖度分布:理想情况下,基因组各区域的测序深度应服从泊松分布,异常的高覆盖或低覆盖区域可能提示技术偏好或样本问题;
  • 批次效应与样本污染:不同测序批次或混合样本会引入系统性偏差。

低质量输入会直接影响后续候选位点的证据强度,导致假阳性或假阴性。

变异检测高度依赖比对(alignment)的质量。比对问题主要包括:

  • 重复区域的多重比对(multi-mapping):短 reads 在基因组重复区域可能匹配到多个位置,导致 MAPQ 降低,变异判断困难;
  • Indel 周围的局部比对失败:标准 Smith-Waterman 局部比对在 indel 边界处容易产生错位,需要局部重比对(local realignment);
  • 参考基因组版本不一致:使用不同参考版本(如 GRCh37 vs GRCh38)会导致坐标偏移,使”变异”实际上只是坐标系差异。

变异检测算法(caller)的核心任务是在以下因素之间做统计区分:

信号来源特征判别方法
真实变异等位基因频率符合孟德尔定律或肿瘤克隆结构;支持 reads 质量高贝叶斯概率模型、基因型似然比
测序错误随机分布;低碱基质量;通常仅出现在单条 read错误率建模、质量分数校准
PCR 重复相同起始位置的 reads 过多;偏好性扩增去重(deduplication)、分子标签(UMI)
比对假象集中在重复区域;MAPQ 低;CIGAR 复杂多重比对过滤、重复区域屏蔽

最终 VCF 中的 FILTER 字段和 QUAL 字段是 caller 对候选位点可信度的量化。分析者需要理解:

  • FILTER 标签的含义:PASS 表示通过所有内部过滤;其他标签(如 LowQual、StrandBias)提示特定问题;
  • QUAL 分数的统计意义:通常是 Phred 标度的变异为假阳性的概率;
  • INFO 字段的解读:DP(深度)、AF(等位基因频率)、SB(链偏好)等统计量帮助人工审核;
  • 注释一致性:功能注释(如 VEP、SnpEff)依赖于转录本数据库版本,需与参考基因组版本匹配。

一个简化 DNA-seq variant workflow 可以写成:

FASTQ -> QC -> alignment -> BAM -> candidate variants -> filtering -> VCF annotation -> interpretation

如果某个候选 SNP 只被极少数 reads 支持,而且这些 reads 的位置质量较差,那么它更可能是:

  • 测序错误;
  • 比对错位;
  • 低复杂度区域产生的假阳性。

因此变异检测的关键并不是”有差异就算变异”,而是评估证据质量。

  • 比对:索引结构、seed-and-extend、动态规划;
  • 候选位点生成:局部证据聚合、错误建模;
  • 过滤:统计阈值、经验规则、群体频率与功能注释;
  • 解释:数据库映射、转录本 / 蛋白水平影响分析。
DNA-seq variant calling pipeline from FASTQ through QC, alignment to BAM, candidate variants, filtering, and annotated VCF/interpretation
DNA-seq 变异检测的典型流程:从原始 FASTQ,到比对得到 BAM,再到候选变异、过滤、注释与解释。