变异检测
变异检测(Variant Calling)要解决的核心问题是:
给定一组来自生物样本的测序 reads 和一个参考基因组序列,识别样本与参考之间存在的所有可信差异,并量化每个候选变异的可靠性。
这些差异包括单核苷酸多态性(SNP)、短插入缺失(InDel),以及更大尺度的结构变异(SV)。该问题的挑战在于:测序数据包含技术噪声、比对不确定性、以及来自重复区域的干扰,必须从中区分真实生物学变异与假象。
为什么这一节重要
Section titled “为什么这一节重要”许多初学者将 variant calling 理解为”运行一个 caller 工具然后查看 VCF 输出”。然而,真正理解这一过程需要回答以下关键问题:
- 证据来源:支持一个候选变异的 reads 来自哪些序列片段?它们的定位是否可靠?
- 比对不确定性:多重比对、indel 周围错位如何影响变异判断?
- 错误模型:测序错误与真实变异在统计特征上有何区别?
- 上下文依赖:过滤标准、重复区域、参考基因组版本如何改变结果解释?
- 变异类型区分:small variants 与结构变异、germline 与 somatic 变异需要不同的检测策略和统计模型。
理解这些问题对于正确解释 caller 输出、设计合适的过滤策略、以及避免下游分析中的假阳性至关重要。
在进入变异检测专题前,建议掌握以下基础:
- 测序 reads、coverage 与错误模型 — 理解测序数据的产生过程和误差来源
- 常见文件格式概览 — 熟悉 FASTQ、BAM、VCF 的结构与含义
- 序列比对 — 理解 reads 如何定位到参考基因组,以及 MAPQ、CIGAR 等指标的意义
推荐阅读顺序
Section titled “推荐阅读顺序”- 测序 reads、coverage 与错误模型
- 常见文件格式概览
- 序列比对
- DNA-seq 变异检测总览
- DNA-seq 变异过滤与质量控制
- 重复与低复杂度区域的变异检测
- Small variants 与结构变异(SV)
- Germline 与 somatic 变异
起点
DNA-seq 变异检测总览
从 FASTQ、BAM、VCF 和过滤逻辑出发,理解 variant calling 的主流程。
进入子主题 过滤逻辑
DNA-seq 变异过滤与质量控制
理解 QUAL、DP、AF、FILTER 等字段如何帮助你筛选更可信的候选变异。
进入子主题 困难区域
重复与低复杂度区域
理解在重复与低复杂度区域中,multi-mapping 和复杂 CIGAR 给变异解释带来的挑战。
进入子主题 变异类型
Small variants 与结构变异(SV)
区分 SNP/短 indel 与大尺度结构变异,并理解它们对应的 caller 与证据。
进入子主题 生物学背景
Germline 与 somatic 变异
从研究设计、caller 选择和解释角度区分 germline 与 somatic 分析思路。
进入子主题