跳转到内容

胚系变异与体细胞变异

快速概览

区分变异的生物学来源对于选择正确的算法模型至关重要。胚系变异遵循孟德尔遗传规律,而体细胞变异则受克隆进化、肿瘤纯度和拷贝数变化的复杂驱动。

  • 掌握 Germline 变异的合子型(Zygosity)与种群频率背景
  • 掌握 Somatic 变异检测中的 VAF (Variant Allele Frequency) 统计直觉
  • 理解"肿瘤-正常配对"设计在过滤胚系背景中的核心作用
  • 认识克隆异质性(Heterogeneity)对突变频率分布的影响
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

特征Germline Variants (胚系变异)Somatic Variants (体细胞变异)
起源遗传自父母,存在于受精卵中。后天获得,由体细胞分裂错误引起。
分布存在于全身几乎所有细胞。仅局限于特定的病变组织或细胞克隆。
遗传性可传递给后代。不遗传。
检测目标遗传病诊断、单倍型分析。癌症驱动基因识别、克隆演化研究。

胚系变异遵循孟德尔遗传定律。在二倍体生物中,每个个体从父母各继承一个等位基因,形成基因型。这意味着:

  • 常染色体显性遗传:杂合子即可表现出表型。
  • 常染色体隐性遗传:需要两个等位基因同时突变。
  • X 连锁遗传:男性只有一个 X 染色体上的等位基因,半合子即可表现出表型。

体细胞变异不遵循孟德尔遗传。它发生在体细胞的有丝分裂过程中,由 DNA 复制错误、环境致癌因素(如紫外线、烟草)或修复机制缺陷引起。体细胞突变的积累是癌症发生的基础。

2. 统计直觉:VAF 告诉我们什么?

Section titled “2. 统计直觉:VAF 告诉我们什么?”

变异等位基因频率(Variant Allele Frequency, VAF) 是区分两者的关键指标。

在正常的二倍体生物中,胚系变异的 VAF 通常呈现”全或半”的特征:

  • 杂合(Heterozygous):VAF 0.5\approx 0.5(理论上来自两条染色体中的一条)。
  • 纯合(Homozygous):VAF 1.0\approx 1.0
  • 算法逻辑:如果一个位点的 VAF 偏离 0.5 或 1.0 太多,算法通常会将其视为测序错误或噪音。

VAF 的分布可以形式化为:

VAFgermlineBinomial(n,p)\text{VAF}_{\text{germline}} \sim \text{Binomial}(n, p)

其中 nn 是覆盖深度,pp 是真实等位基因频率(0.5 或 1.0)。在足够的深度下(如 n20n \geq 20),二项分布近似为正态分布,VAF 的置信区间可以很容易地计算。

在肿瘤样本中,VAF 受到多种因素的剧烈干扰: VAFPurity×Clone Fraction×Local Copy NumberTotal DepthVAF \approx \text{Purity} \times \text{Clone Fraction} \times \frac{\text{Local Copy Number}}{\text{Total Depth}}

  • 肿瘤纯度(Purity):样本中混入了多少正常基质细胞。
  • 亚克隆(Subclones):并非所有癌细胞都携带该突变。
  • 拷贝数(CNV):变异位点可能发生了扩增或缺失。
  • 算法逻辑:Somatic Caller(如 Mutect2)必须能够识别极低频率(甚至 1%1\%)的信号,并利用 Panel of Normals (PON) 来排除系统性的噪音。

假设一个肿瘤样本的纯度为 ρ\rho(即肿瘤细胞占总细胞的比例),某个体细胞突变存在于克隆比例为 ϕ\phi 的癌细胞中,该位点在肿瘤细胞中的局部拷贝数为 CC,其中突变等位基因的拷贝数为 MM,则:

VAF=ρϕM2ρC+2(1ρ)\text{VAF} = \rho \cdot \phi \cdot \frac{M}{2\rho \cdot C + 2(1-\rho)}

分母中,2ρC2\rho \cdot C 是肿瘤细胞在该位点的总等位基因数,2(1ρ)2(1-\rho) 是正常细胞的等位基因数(二倍体)。

数值例子:假设纯度 ρ=0.6\rho = 0.6,克隆比例 ϕ=0.5\phi = 0.5,拷贝数 C=2C = 2,突变拷贝数 M=1M = 1(杂合):

VAF=0.6×0.5×12×0.6×2+2×0.4=0.3×12.4+0.8=0.3×13.20.094\text{VAF} = 0.6 \times 0.5 \times \frac{1}{2 \times 0.6 \times 2 + 2 \times 0.4} = 0.3 \times \frac{1}{2.4 + 0.8} = 0.3 \times \frac{1}{3.2} \approx 0.094

即 VAF 约为 9.4%,远低于胚系杂合变异的 50%。

3. 分析设计:为什么要”配对”?

Section titled “3. 分析设计:为什么要”配对”?”

为了精准识别体细胞变异,标准的做法是 Tumor-Normal Pair

  • 逻辑:将患者肿瘤组织的测序数据与同一人的外周血(正常对照)进行比对。
  • 过滤:所有在正常对照中出现的变异都被标记为 Germline 变异并剔除,剩余的才是该患者特有的 Somatic 突变。

在某些情况下(如只有 FFPE 肿瘤样本,没有匹配的正常组织),只能使用无配对(Tumor-Only) 模式进行体细胞变异检测。此时面临的挑战包括:

  • 无法区分胚系多态性:人群中常见的 SNP 会被误报为体细胞变异。
  • 需要外部过滤:必须依赖公共数据库(如 gnomAD、dbSNP)来过滤常见的胚系变异。
  • 假阳性率更高:测序错误和比对噪音无法通过与正常样本的比对来消除。

PON 是由大量正常样本(通常 40—100 个)构建的噪音模型。其原理是:

  1. 对每个正常样本运行体细胞变异检测流程。
  2. 收集所有检测到的”变异”——这些几乎都是假阳性。
  3. 将 PON 中的变异作为黑名单,在实际分析中过滤掉。

PON 能有效捕获系统性技术噪音(如特定基因组区域的比对困难、氧化损伤导致的 G>T 人为突变等)。

不同类型的 DNA 损伤会在基因组中留下特征的突变模式,称为突变谱(Mutational Signatures)。这些模式不仅帮助理解突变的生物学成因,也可用于区分胚系和体细胞变异。

紫外线损伤(UV Signature)
特征为 C>T 转换在二核苷酸语境中富集(TCN > TTN)。见于皮肤黑色素瘤。
吸烟相关(Tobacco Signature)
特征为 G>T 颠换(C>A 互补链)的富集。见于肺鳞癌。
错配修复缺陷(MMR Deficiency)
特征为微卫星不稳定性(MSI) 和大量插入/缺失突变。见于结直肠癌和子宫内膜癌。
APOBEC 酶活性
特征为 TCW > TTW 和 GCW > GTW 突变。在多种癌症类型中观察到,可能与病毒感染或免疫反应有关。

5. 肿瘤克隆结构(Clonal Architecture)

Section titled “5. 肿瘤克隆结构(Clonal Architecture)”

肿瘤不是单一的细胞群体,而是由多个基因型不同的亚克隆(Subclones) 构成。理解克隆结构对于体细胞变异检测和解读至关重要。

最常见的肿瘤进化模型包括:

  • 线性进化(Linear Evolution):突变逐步累积,新的亚克隆在前一个亚克隆的基础上产生。
  • 分支进化(Branching Evolution):不同的亚克隆从共同祖先独立演化,形成树状结构。
  • 中性进化(Neutral Evolution):大多数”乘客突变(Passenger Mutations)“的积累遵循中性漂变模型,不受到正向选择的影响。
  • 克隆(Clonal) 变异:存在于所有肿瘤细胞中,VAF 较高(通常 > 20—30%,取决于纯度)。这些变异通常发生在肿瘤发生的早期,可能是驱动突变。
  • 亚克隆(Subclonal) 变异:只存在于部分肿瘤细胞中,VAF 较低。这些变异发生在肿瘤进化的后期,可能是耐药突变的来源。
维度 胚系变异报告 体细胞变异报告
分级标准 ACMG/AMP 5 级分类 AMP/ASCO/CAP 4 级分类
核心关注 遗传风险(终身患病概率) 治疗可操作性(用药/预后)
VAF 期望 杂合 ~0.5,纯合 ~1.0 可变(受肿瘤纯度和 CNV 影响)
数据库来源 gnomAD、ClinVar、HGMD COSMIC、TCGA、OncoKB
家庭影响 一级亲属均需考虑筛查 通常不影响家庭成员

美国医学遗传学学会(ACMG) 将胚系变异分为五个等级:

分级含义临床行动
Pathogenic致病明确的临床指导
Likely Pathogenic可能致病提供临床指导
VUS意义不明不提供明确指导
Likely Benign可能良性通常不需要干预
Benign良性无需临床干预

体细胞变异的分级体系(AMP/ASCO/CAP)侧重于临床可操作性:

  • Tier I:具有强临床意义(FDA 批准的靶向药物对应的变异)。
  • Tier II:具有潜在临床意义(临床试验中的靶向药物或临床前证据支持)。
  • Tier III:临床意义未知(在癌症中观察到但功能不明确)。
  • Tier IV:良性或可能良性(在群体数据库中频率较高,不太可能是驱动突变)。

区分胚系和体细胞变异在以下场景中至关重要:

  • 癌症精准医疗:识别肿瘤中的可靶向驱动突变(如 EGFR L858R、ALK 融合),指导靶向治疗选择。
  • 遗传性癌症综合征筛查:在肿瘤患者中识别胚系致病突变(如 BRCA1/2),提示遗传性癌症风险,建议家族成员进行基因检测。
  • 液态活检(Liquid Biopsy):通过检测血液中循环肿瘤 DNA (ctDNA) 的体细胞突变,实现癌症的早期筛查、疗效监测和复发预警。
  • 肿瘤免疫治疗:肿瘤突变负荷(Tumor Mutational Burden, TMB) 是预测免疫检查点抑制剂疗效的指标,需要准确的体细胞变异计数。