Small Variants 与结构变异 (SV)
变异检测(Variant Calling)在不同尺度上采用完全不同的算法。Small Variants 依赖局部堆叠(Pileup)的统计特征,而结构变异(SV)则需要整合全基因组范围的非正常比对信号。
- 掌握 Small Variants(SNP、短 Indel)的局部统计推断模型
- 掌握 SV 的五种核心检测信号:Read Pair, Split Read, Read Depth, Assembly, Breakends
- 了解基因组重排(Rearrangements)作为 SV 算法设计的数学背景
- 理解不同变异类型在临床解释与生物学功能上的差异
1. 变异尺度的分界线
Section titled “1. 变异尺度的分界线”| 类型 | 尺度 | 主要特征 |
|---|---|---|
| Small Variants | 1 bp - 50 bp | 包含 SNP 和短插入/缺失。能被单条 Read 完整覆盖。 |
| Structural Variants | > 50 bp | 包含大片段缺失、重复、倒位和易位。通常涉及基因组结构的剧烈重排。 |
SV 的分类体系
Section titled “SV 的分类体系”结构变异的类型多样,按照其对基因组结构的影响可以分为:
- 缺失(Deletion, DEL)
- 基因组中一段序列被删除。长度从 50 bp 到数 Mb 不等。是人类基因组中最常见的 SV 类型。
- 插入(Insertion, INS)
- 基因组中新出现了一段序列。包括插入新的 DNA 片段或移动元件(如 Alu、LINE-1)的插入。
- 倒位(Inversion, INV)
- 一段序列的方向被反转。通常由同一条染色体上的两次双链断裂和错误修复产生。
- 易位(Translocation, TRA)
- 非同源染色体之间的片段交换。可分为平衡易位(无片段丢失)和非平衡易位(伴随片段丢失或重复)。
- 拷贝数变异(Copy Number Variation, CNV)
- 基因组中某段序列的拷贝数偏离二倍体状态(如从 2 拷贝变为 1 拷贝或 3 拷贝)。是 DEL 和 DUP 在拷贝数维度上的统称。
2. Small Variants:局部堆叠模型
Section titled “2. Small Variants:局部堆叠模型”这类变异主要通过 Pileup (堆叠) 信息来识别。
- 算法核心:贝叶斯推断。计算在给定观测碱基和质量值(Phred Score)的情况下,该位点属于某种基因型的概率。
- 挑战:区分真实的低频变异与背景测序噪音。
贝叶斯模型的数学形式
Section titled “贝叶斯模型的数学形式”对于某个位点,设观测到的碱基为 ,每个碱基的质量值为 。对于候选基因型 (如 表示杂合),贝叶斯模型计算:
其中似然函数假设各碱基独立:
每个碱基的似然由测序错误率 决定:
先验 可以根据群体等位基因频率(如从 gnomAD 数据库获取)或假设均匀分布来设定。
碱基质量重校准(Base Quality Score Recalibration, BQSR)
Section titled “碱基质量重校准(Base Quality Score Recalibration, BQSR)”原始的 Phred 质量值可能系统性偏高或偏低。GATK 的 BQSR 通过建立已知变异位点的协变量模型(依赖于碱基上下文、机器周期、reads 位置等)来校准质量值,使贝叶斯推断的输入更加可靠。
3. 结构变异(SV):全局信号整合
Section titled “3. 结构变异(SV):全局信号整合”由于 SV 的尺度超出了单条 Read 的长度,算法必须寻找”非正常”的比对证据:
- Read Pair (RP)
- 成对 Read 的间距(Insert Size)异常。间距过大暗示中间有缺失(DEL),过小暗示有插入(INS)。方向异常(如 FF 或 RR 而非 FR)可能暗示倒位或易位。
- Split Read (SR)
- 单条 Read 被切断并比对到基因组不连续的两个位置。这直接定义了变异的精确断点(Breakpoint),是 SV 分辨率的基石。
- Read Depth (RD)
- 通过覆盖度的显著升高或降低来检测拷贝数变异(CNV)。使用滑动窗口计算局部覆盖度,并与基因组背景水平比较。
- Assembly
- 局部 de novo 组装。这是最精确的方法,特别适合检测含有复杂重复序列的变异。通过将 Reads 拼接成更长的 Contig,可以直接观测 SV 的断点序列。
- Breakends (BND)
- 断点记录格式。BND 不仅记录 SV 本身,还记录断点在参考基因组中的精确坐标和方向,是 VCF 规范中用于表示复杂重排的标准化方式。
五种信号的互补性
Section titled “五种信号的互补性”不同的 SV 类型对不同信号的敏感度不同:
| SV 类型 | RP | SR | RD | Assembly |
|---|---|---|---|---|
| 缺失(DEL) | 敏感 | 敏感(精确断点) | 敏感 | 最精确 |
| 插入(INS) | 有限 | 依赖读长 | 不敏感 | 最精确 |
| 倒位(INV) | 方向信号 | 敏感 | 不敏感 | 敏感 |
| 易位(TRA) | 方向信号 | 敏感 | 不敏感 | 敏感 |
| CNV | 不敏感 | 不敏感 | 最敏感 | 不适用 |
现代 SV 检测工具(如 Manta、Delly、GRIDSS)通常整合多种信号以提高灵敏度和特异性。
4. Read Pair 信号的统计模型
Section titled “4. Read Pair 信号的统计模型”Read Pair 信号是检测 SV 的基础。在正常情况下,Insert Size 服从一个分布(近似正态):
其中 是平均 Insert Size(如 Illumina 的 350 bp 文库中 ), 是标准差(通常 — bp)。
如果一个 Read Pair 的 Insert Size 显著大于 (如 ),则暗示两个 Read 之间存在缺失。缺失长度的估计为:
Z-score 检验
Section titled “Z-score 检验”对于每个 Read Pair,计算其 Insert Size 的 Z-score:
的 Read Pair 被视为异常。在候选区域中,如果异常 Read Pair 的数量超过统计阈值(如 Poisson 分布的 ),则报告为一个候选 SV。
5. Read Depth 与 CNV 检测
Section titled “5. Read Depth 与 CNV 检测”将基因组划分为固定大小的窗口(如 1 kb),计算每个窗口内的归一化覆盖度:
其中 是第 个窗口的原始覆盖度, 是全基因组覆盖度的中位数。在二倍体区域,;在杂合缺失区域,;在纯合缺失区域,。
环形二元分割(Circular Binary Segmentation, CBS)
Section titled “环形二元分割(Circular Binary Segmentation, CBS)”CBS 算法通过统计检验识别覆盖度的显著变化点,将基因组分割为覆盖度一致的片段。该算法由 Olshen 等人提出,是 DNAcopy 包的核心方法。
其核心思想是:给定一个基因组区间,检验其覆盖度是否存在一个突变点(即左右两段覆盖度均值不同)。如果检验显著,则在该点分割,并递归处理两个子区间。
6. SV 与基因组重排的联系
Section titled “6. SV 与基因组重排的联系”结构变异在数学上可以抽象为排列的变换。
- 倒位(Inversion) 对应于排列中的一个子串反转。
- 易位(Translocation) 对应于子串在不同染色体(或同一染色体不同位置)间的移动。
- 算法启发:我们在基因组重排中讨论的”反转距离”和”断点分析”是理解大型 SV 演化机制的理论基础。
断点图(Breakpoint Graph)
Section titled “断点图(Breakpoint Graph)”断点图是分析基因组重排的经典工具。对于两个基因组 和 ,将 中每个基因的两端(头和尾)作为节点, 中的相邻关系和 中的相邻关系分别用灰色和黑色边连接。断点图中的交替环的数量直接对应于两个基因组之间的重排距离。
7. SV 的检测灵敏度与测序策略
Section titled “7. SV 的检测灵敏度与测序策略”不同测序策略对 SV 检测的能力差异巨大:
| 策略 | 典型读长 | SV 检测优势 | SV 检测局限 |
|---|---|---|---|
| 短读长(Illumina) | 150 bp | 高覆盖度,SNP 检测准 | 无法跨越大 SV,在重复区域中困难 |
| 长读长(PacBio) | 10—25 kb | 可跨越大 SV,精确断点 | 覆盖度较低,成本高 |
| 超长读长(Nanopore) | 10—100 kb | 可检测超大 SV 和复杂重排 | 单碱基错误率较高 |
| 光学图谱(Bionano) | > 100 kb | 检测 Mb 级 SV,不受序列偏差影响 | 分辨率有限(~500 bp),无法检测 SNP |
| Hi-C | 染色体级别 | 检测拓扑关联结构变化 | 灵敏度低,需要深度数据 |
关键洞察:没有任何单一测序策略能完美检测所有类型的 SV。最优的策略是结合多种技术的互补优势。例如,用 Illumina 数据检测 SNP 和小 Indel,用长读长数据检测大 SV 的精确断点,用光学图谱验证 Mb 级的结构变化。
8. Worked Example:从 Read Pair 信号推断缺失
Section titled “8. Worked Example:从 Read Pair 信号推断缺失”某 Illumina 测序文库的 Insert Size 分布为 。在基因组坐标 chr5:100,000—100,500 附近,观察到以下 Read Pair 信息:
- 30 个正常 Read Pair(Insert Size 在 300—400 之间,FR 方向)
- 15 个异常 Read Pair(Insert Size 在 600—800 之间,FR 方向)
这些异常 Read Pair 的平均 Insert Size 为 700 bp。请推断可能的 SV 及其参数。
步骤 1:计算异常 Read Pair 的 Z-score。
,这些 Read Pair 显著异常。
步骤 2:推断缺失长度。
推断为约 350 bp 的缺失。
步骤 3:确定缺失坐标。
异常 Read Pair 的上游 Read 比对到 chr5:99,500—99,650 附近,下游 Read 比对到 chr5:100,350—100,500 附近。
缺失的候选区间为 chr5:99,650—100,350(约 700 bp 区间,扣除正常 Insert Size 后约 350 bp 为缺失)。
步骤 4:统计显著性。
在零假设(无 SV)下, 的概率为 。15 个 Read Pair 都异常的概率极低(假设每个 Read Pair 独立,),因此该 SV 信号高度显著。
步骤 5:验证建议。
使用 Split Read 信号确认精确断点位置,使用 Read Depth 检查该区域的覆盖度是否下降约 50%(杂合缺失)或 100%(纯合缺失)。
9. 临床与功能意义
Section titled “9. 临床与功能意义”- 剂量效应:大片段缺失或重复(CNV)常导致基因拷贝数变化,引发发育疾病或癌症。
- 基因融合:易位可能将两个不相关的基因拼在一起(如 BCR-ABL),成为癌症的驱动因子。
临床中常见的 SV
Section titled “临床中常见的 SV”| 疾病/场景 | SV 类型 | 代表性变异 | 功能后果 |
|---|---|---|---|
| 慢性髓性白血病(CML) | 平衡易位 | t(9;22) BCR-ABL1 融合 | 产生具有持续酪氨酸激酶活性的融合蛋白 |
| DiGeorge 综合征 | 大片段缺失 | 22q11.2 缺失(约 3 Mb) | TBX1 等基因单倍型不足,导致心脏和免疫缺陷 |
| Charcot-Marie-Tooth 病 | 基因重复 | PMP22 基因重复(1.5 Mb) | PMP22 过表达导致周围神经脱髓鞘 |
| 微阵列基因组杂交(CMA) | CNV | 全基因组 CNV 扫描 | 一线临床遗传学诊断工具 |