跳转到内容

Small Variants 与结构变异 (SV)

快速概览

变异检测(Variant Calling)在不同尺度上采用完全不同的算法。Small Variants 依赖局部堆叠(Pileup)的统计特征,而结构变异(SV)则需要整合全基因组范围的非正常比对信号。

  • 掌握 Small Variants(SNP、短 Indel)的局部统计推断模型
  • 掌握 SV 的五种核心检测信号:Read Pair, Split Read, Read Depth, Assembly, Breakends
  • 了解基因组重排(Rearrangements)作为 SV 算法设计的数学背景
  • 理解不同变异类型在临床解释与生物学功能上的差异
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

类型尺度主要特征
Small Variants1 bp - 50 bp包含 SNP 和短插入/缺失。能被单条 Read 完整覆盖。
Structural Variants> 50 bp包含大片段缺失、重复、倒位和易位。通常涉及基因组结构的剧烈重排。

结构变异的类型多样,按照其对基因组结构的影响可以分为:

缺失(Deletion, DEL)
基因组中一段序列被删除。长度从 50 bp 到数 Mb 不等。是人类基因组中最常见的 SV 类型。
插入(Insertion, INS)
基因组中新出现了一段序列。包括插入新的 DNA 片段或移动元件(如 Alu、LINE-1)的插入。
倒位(Inversion, INV)
一段序列的方向被反转。通常由同一条染色体上的两次双链断裂和错误修复产生。
易位(Translocation, TRA)
非同源染色体之间的片段交换。可分为平衡易位(无片段丢失)和非平衡易位(伴随片段丢失或重复)。
拷贝数变异(Copy Number Variation, CNV)
基因组中某段序列的拷贝数偏离二倍体状态(如从 2 拷贝变为 1 拷贝或 3 拷贝)。是 DEL 和 DUP 在拷贝数维度上的统称。

这类变异主要通过 Pileup (堆叠) 信息来识别。

  • 算法核心:贝叶斯推断。计算在给定观测碱基和质量值(Phred Score)的情况下,该位点属于某种基因型的概率。
  • 挑战:区分真实的低频变异与背景测序噪音。

对于某个位点,设观测到的碱基为 d=(d1,d2,,dn)\mathbf{d} = (d_1, d_2, \ldots, d_n),每个碱基的质量值为 qiq_i。对于候选基因型 GG(如 G=A/TG = \text{A/T} 表示杂合),贝叶斯模型计算:

P(Gd)=P(dG)P(G)GP(dG)P(G)P(G \mid \mathbf{d}) = \frac{P(\mathbf{d} \mid G) \cdot P(G)}{\sum_{G'} P(\mathbf{d} \mid G') \cdot P(G')}

其中似然函数假设各碱基独立:

P(dG)=i=1nP(diG)P(\mathbf{d} \mid G) = \prod_{i=1}^{n} P(d_i \mid G)

每个碱基的似然由测序错误率 ϵi=10qi/10\epsilon_i = 10^{-q_i/10} 决定:

P(diG)={1ϵiif di matches Gϵi/3if di mismatches GP(d_i \mid G) = \begin{cases} 1 - \epsilon_i & \text{if } d_i \text{ matches } G \\ \epsilon_i / 3 & \text{if } d_i \text{ mismatches } G \end{cases}

先验 P(G)P(G) 可以根据群体等位基因频率(如从 gnomAD 数据库获取)或假设均匀分布来设定。

碱基质量重校准(Base Quality Score Recalibration, BQSR)

Section titled “碱基质量重校准(Base Quality Score Recalibration, BQSR)”

原始的 Phred 质量值可能系统性偏高或偏低。GATK 的 BQSR 通过建立已知变异位点的协变量模型(依赖于碱基上下文、机器周期、reads 位置等)来校准质量值,使贝叶斯推断的输入更加可靠。

3. 结构变异(SV):全局信号整合

Section titled “3. 结构变异(SV):全局信号整合”

由于 SV 的尺度超出了单条 Read 的长度,算法必须寻找”非正常”的比对证据:

Read Pair (RP)
成对 Read 的间距(Insert Size)异常。间距过大暗示中间有缺失(DEL),过小暗示有插入(INS)。方向异常(如 FF 或 RR 而非 FR)可能暗示倒位或易位。
Split Read (SR)
单条 Read 被切断并比对到基因组不连续的两个位置。这直接定义了变异的精确断点(Breakpoint),是 SV 分辨率的基石。
Read Depth (RD)
通过覆盖度的显著升高或降低来检测拷贝数变异(CNV)。使用滑动窗口计算局部覆盖度,并与基因组背景水平比较。
Assembly
局部 de novo 组装。这是最精确的方法,特别适合检测含有复杂重复序列的变异。通过将 Reads 拼接成更长的 Contig,可以直接观测 SV 的断点序列。
Breakends (BND)
断点记录格式。BND 不仅记录 SV 本身,还记录断点在参考基因组中的精确坐标和方向,是 VCF 规范中用于表示复杂重排的标准化方式。

不同的 SV 类型对不同信号的敏感度不同:

SV 类型RPSRRDAssembly
缺失(DEL)敏感敏感(精确断点)敏感最精确
插入(INS)有限依赖读长不敏感最精确
倒位(INV)方向信号敏感不敏感敏感
易位(TRA)方向信号敏感不敏感敏感
CNV不敏感不敏感最敏感不适用

现代 SV 检测工具(如 Manta、Delly、GRIDSS)通常整合多种信号以提高灵敏度和特异性。

Read Pair 信号是检测 SV 的基础。在正常情况下,Insert Size 服从一个分布(近似正态):

ISN(μ,σ2)\text{IS} \sim \mathcal{N}(\mu, \sigma^2)

其中 μ\mu 是平均 Insert Size(如 Illumina 的 350 bp 文库中 μ350\mu \approx 350),σ\sigma 是标准差(通常 σ30\sigma \approx 305050 bp)。

如果一个 Read Pair 的 Insert Size 显著大于 μ\mu(如 IS>μ+3σ\text{IS} > \mu + 3\sigma),则暗示两个 Read 之间存在缺失。缺失长度的估计为:

L^DEL=ISμ\hat{L}_{\text{DEL}} = \text{IS} - \mu

对于每个 Read Pair,计算其 Insert Size 的 Z-score:

Z=ISμσZ = \frac{\text{IS} - \mu}{\sigma}

Z>3|Z| > 3 的 Read Pair 被视为异常。在候选区域中,如果异常 Read Pair 的数量超过统计阈值(如 Poisson 分布的 P<0.01P < 0.01),则报告为一个候选 SV。

CNV 染色体区间解读:正常与异常拷贝数区域对比
CNV 检测中的 Read Depth 信号与拷贝数解读

将基因组划分为固定大小的窗口(如 1 kb),计算每个窗口内的归一化覆盖度:

RCj=djdˉ\text{RC}_j = \frac{d_j}{\bar{d}}

其中 djd_j 是第 jj 个窗口的原始覆盖度,dˉ\bar{d} 是全基因组覆盖度的中位数。在二倍体区域,RC1\text{RC} \approx 1;在杂合缺失区域,RC0.5\text{RC} \approx 0.5;在纯合缺失区域,RC0\text{RC} \approx 0

环形二元分割(Circular Binary Segmentation, CBS)

Section titled “环形二元分割(Circular Binary Segmentation, CBS)”

CBS 算法通过统计检验识别覆盖度的显著变化点,将基因组分割为覆盖度一致的片段。该算法由 Olshen 等人提出,是 DNAcopy 包的核心方法。

其核心思想是:给定一个基因组区间,检验其覆盖度是否存在一个突变点(即左右两段覆盖度均值不同)。如果检验显著,则在该点分割,并递归处理两个子区间。

结构变异在数学上可以抽象为排列的变换

  • 倒位(Inversion) 对应于排列中的一个子串反转。
  • 易位(Translocation) 对应于子串在不同染色体(或同一染色体不同位置)间的移动。
  • 算法启发:我们在基因组重排中讨论的”反转距离”和”断点分析”是理解大型 SV 演化机制的理论基础。

断点图是分析基因组重排的经典工具。对于两个基因组 AABB,将 AA 中每个基因的两端(头和尾)作为节点,AA 中的相邻关系和 BB 中的相邻关系分别用灰色和黑色边连接。断点图中的交替环的数量直接对应于两个基因组之间的重排距离。

不同测序策略对 SV 检测的能力差异巨大:

策略典型读长SV 检测优势SV 检测局限
短读长(Illumina)150 bp高覆盖度,SNP 检测准无法跨越大 SV,在重复区域中困难
长读长(PacBio)10—25 kb可跨越大 SV,精确断点覆盖度较低,成本高
超长读长(Nanopore)10—100 kb可检测超大 SV 和复杂重排单碱基错误率较高
光学图谱(Bionano)> 100 kb检测 Mb 级 SV,不受序列偏差影响分辨率有限(~500 bp),无法检测 SNP
Hi-C染色体级别检测拓扑关联结构变化灵敏度低,需要深度数据

关键洞察:没有任何单一测序策略能完美检测所有类型的 SV。最优的策略是结合多种技术的互补优势。例如,用 Illumina 数据检测 SNP 和小 Indel,用长读长数据检测大 SV 的精确断点,用光学图谱验证 Mb 级的结构变化。

8. Worked Example:从 Read Pair 信号推断缺失

Section titled “8. Worked Example:从 Read Pair 信号推断缺失”

某 Illumina 测序文库的 Insert Size 分布为 N(350,402)\mathcal{N}(350, 40^2)。在基因组坐标 chr5:100,000—100,500 附近,观察到以下 Read Pair 信息:

  • 30 个正常 Read Pair(Insert Size 在 300—400 之间,FR 方向)
  • 15 个异常 Read Pair(Insert Size 在 600—800 之间,FR 方向)

这些异常 Read Pair 的平均 Insert Size 为 700 bp。请推断可能的 SV 及其参数。

步骤 1:计算异常 Read Pair 的 Z-score。

Z=70035040=8.75Z = \frac{700 - 350}{40} = 8.75

Z=8.753|Z| = 8.75 \gg 3,这些 Read Pair 显著异常。

步骤 2:推断缺失长度。

L^DEL=700350=350 bp\hat{L}_{\text{DEL}} = 700 - 350 = 350 \text{ bp}

推断为约 350 bp 的缺失。

步骤 3:确定缺失坐标。

异常 Read Pair 的上游 Read 比对到 chr5:99,500—99,650 附近,下游 Read 比对到 chr5:100,350—100,500 附近。

缺失的候选区间为 chr5:99,650—100,350(约 700 bp 区间,扣除正常 Insert Size 后约 350 bp 为缺失)。

步骤 4:统计显著性。

在零假设(无 SV)下,Z>3|Z| > 3 的概率为 P<0.003P < 0.003。15 个 Read Pair 都异常的概率极低(假设每个 Read Pair 独立,P<0.003150P < 0.003^{15} \approx 0),因此该 SV 信号高度显著。

步骤 5:验证建议。

使用 Split Read 信号确认精确断点位置,使用 Read Depth 检查该区域的覆盖度是否下降约 50%(杂合缺失)或 100%(纯合缺失)。

  • 剂量效应:大片段缺失或重复(CNV)常导致基因拷贝数变化,引发发育疾病或癌症。
  • 基因融合:易位可能将两个不相关的基因拼在一起(如 BCR-ABL),成为癌症的驱动因子。
疾病/场景SV 类型代表性变异功能后果
慢性髓性白血病(CML)平衡易位t(9;22) BCR-ABL1 融合产生具有持续酪氨酸激酶活性的融合蛋白
DiGeorge 综合征大片段缺失22q11.2 缺失(约 3 Mb)TBX1 等基因单倍型不足,导致心脏和免疫缺陷
Charcot-Marie-Tooth 病基因重复PMP22 基因重复(1.5 Mb)PMP22 过表达导致周围神经脱髓鞘
微阵列基因组杂交(CMA)CNV全基因组 CNV 扫描一线临床遗传学诊断工具