变异检测

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

适合谁读 建议在以下阶段阅读

已经理解比对与参考基因组，希望把方法放回 DNA-seq 任务中的读者

建议起点 推荐阅读路径

先看 reads/coverage、常见文件格式与序列比对，再进入 variant calling

核心问题

变异检测（Variant Calling）要解决的核心问题是：

给定一组来自生物样本的测序 reads 和一个参考基因组序列，识别样本与参考之间存在的所有可信差异，并量化每个候选变异的可靠性。

这些差异包括单核苷酸多态性（SNP）、短插入缺失（InDel），以及更大尺度的结构变异（SV）。该问题的挑战在于：测序数据包含技术噪声、比对不确定性、以及来自重复区域的干扰，必须从中区分真实生物学变异与假象。

为什么这一节重要

许多初学者将 variant calling 理解为”运行一个 caller 工具然后查看 VCF 输出”。然而，真正理解这一过程需要回答以下关键问题：

证据来源：支持一个候选变异的 reads 来自哪些序列片段？它们的定位是否可靠？
比对不确定性：多重比对、indel 周围错位如何影响变异判断？
错误模型：测序错误与真实变异在统计特征上有何区别？
上下文依赖：过滤标准、重复区域、参考基因组版本如何改变结果解释？
变异类型区分：small variants 与结构变异、germline 与 somatic 变异需要不同的检测策略和统计模型。

理解这些问题对于正确解释 caller 输出、设计合适的过滤策略、以及避免下游分析中的假阳性至关重要。

前置知识

在进入变异检测专题前，建议掌握以下基础：

测序 reads、coverage 与错误模型 — 理解测序数据的产生过程和误差来源
常见文件格式概览 — 熟悉 FASTQ、BAM、VCF 的结构与含义
序列比对 — 理解 reads 如何定位到参考基因组，以及 MAPQ、CIGAR 等指标的意义

子主题导航

起点 workflow overview

DNA-seq 变异检测总览

从 FASTQ、BAM、VCF 和过滤逻辑出发，理解 variant calling 的主流程。

进入子主题

过滤逻辑 filtering

DNA-seq 变异过滤与质量控制

理解 QUAL、DP、AF、FILTER 等字段如何帮助你筛选更可信的候选变异。

进入子主题

困难区域 repeats

重复与低复杂度区域

理解在重复与低复杂度区域中，multi-mapping 和复杂 CIGAR 给变异解释带来的挑战。

进入子主题

变异类型 small vs SV

Small variants 与结构变异（SV）

区分 SNP/短 indel 与大尺度结构变异，并理解它们对应的 caller 与证据。

进入子主题

生物学背景 germline vs somatic

Germline 与 somatic 变异

从研究设计、caller 选择和解释角度区分 germline 与 somatic 分析思路。

进入子主题

变异检测

核心问题

为什么这一节重要

前置知识

推荐阅读顺序

子主题导航

DNA-seq 变异检测总览

DNA-seq 变异过滤与质量控制

重复与低复杂度区域

Small variants 与结构变异（SV）

Germline 与 somatic 变异

与其他板块的连接

变异检测

核心问题

为什么这一节重要

前置知识

推荐阅读顺序

子主题导航

DNA-seq 变异检测总览

DNA-seq 变异过滤与质量控制

重复与低复杂度区域

Small variants 与结构变异（SV）

Germline 与 somatic 变异

与其他板块的连接

测序 reads、coverage 与错误模型

序列比对

DNA-seq 变异检测总览