跳转到内容

Hardy–Weinberg 平衡

快速概览

Hardy–Weinberg 平衡(HWE)是群体遗传学的理论基石。它证明了在理想条件下,等位基因频率和基因型频率将在代际间保持不变。这一模型为识别进化压力和评估测序质量提供了关键参照。

  • 理解随机交配下基因型频率的数学推导:$p^2 + 2pq + q^2 = 1$
  • 掌握 HWE 的五个理想假设条件:大群体、随机交配、无突变、无选择、无迁移
  • 学习如何利用卡方检验或精确检验评估位点是否偏离平衡
  • 掌握 HWE 过滤在 GWAS 质量控制中的应用逻辑
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

1908 年,Hardy 和 Weinberg 独立证明了一个深刻的结论:在没有进化动力干扰的情况下,孟德尔遗传本身不会改变群体的遗传组成。

设等位基因 AA 的频率为 pp,等位基因 aa 的频率为 qqp+q=1p+q=1)。 在随机交配下,下一代的基因型频率将达到平衡:

  • f(AA)=p2f(AA) = p^2
  • f(Aa)=2pqf(Aa) = 2pq
  • f(aa)=q2f(aa) = q^2

直觉:这就像是从一个巨大的”基因池”中随机抽取两个碱基。抽取两个 AA 的概率是 ppp \cdot p,抽取一个 AA 一个 aa 的组合有两种(AaAaaAaA),概率为 2pq2pq

使用 Punnett 方格可以更直观地理解这一推导过程。设父方和母方的等位基因频率相同(因为群体等位基因频率不因性别而异),则:

AA (pp)aa (qq)
AA (pp)AAAA (p2p^2)AaAa (pqpq)
aa (qq)AaAa (pqpq)aaaa (q2q^2)

汇总后得到基因型频率:p2+2pq+q2=(p+q)2=1p^2 + 2pq + q^2 = (p+q)^2 = 1

HWE 的一个关键性质是:一旦达到平衡,基因型频率将永远保持不变。证明如下:

设第 tt 代的等位基因频率为 ptp_tqtq_t。第 t+1t+1 代的基因型频率为:

f(AA)t+1=pt2,f(Aa)t+1=2ptqt,f(aa)t+1=qt2f(AA)_{t+1} = p_t^2, \quad f(Aa)_{t+1} = 2p_t q_t, \quad f(aa)_{t+1} = q_t^2

t+1t+1 代的等位基因频率为:

pt+1=f(AA)t+1+12f(Aa)t+1=pt2+ptqt=pt(pt+qt)=ptp_{t+1} = f(AA)_{t+1} + \frac{1}{2}f(Aa)_{t+1} = p_t^2 + p_t q_t = p_t(p_t + q_t) = p_t

因此 pt+1=ptp_{t+1} = p_t,等位基因频率在代际间保持不变。这意味着 HWE 不仅是一个平衡状态,而且是一个稳定平衡——任何偏离都会在一代之内恢复。

HWE 的成立依赖以下五个理想假设。在自然界中,这些条件几乎不可能同时满足,但 HWE 的价值恰恰在于:当实际数据偏离 HWE 时,说明至少有一个假设被打破了

无限大的群体(Infinite Population)
消除遗传漂变的影响。实际群体是有限的,小群体中漂变会导致等位基因频率随机波动,最终可能固定或丢失。
随机交配(Random Mating)
个体间的交配不依赖于基因型。近亲繁殖(Inbreeding) 是最常见的非随机交配形式,会增加纯合子的比例。
无突变(No Mutation)
等位基因之间不发生转换。实际突变率约为 $10^{-8}$ 每碱基每代,虽然很低但长期累积会影响频率。
无选择(No Selection)
所有基因型的适合度(Fitness) 相同。自然选择会改变等位基因频率,使有利等位基因的频率逐代增加。
无迁移(No Migration)
没有个体迁入或迁出。基因流(Gene Flow) 会引入新的等位基因或改变现有频率。

如果一个位点显著偏离 HWE,通常意味着以下情况之一正在发生:

  • 选择(Selection):某种基因型具有生存优势。
  • 群体分层(Population Stratification):样本其实来自两个演化背景不同的亚群(Wahlund 效应)。
  • 近亲繁殖(Inbreeding):增加了纯合子的比例。
  • 技术噪音:这是生物信息学中最常见的解释——该位点可能存在测序错误或比对歧义。

当样本中混合了两个等位基因频率不同的亚群时,即使每个亚群内部都满足 HWE,混合后的整体也会偏离 HWE。

设亚群 1 中等位基因 AA 的频率为 p1p_1,亚群 2 中为 p2p_2p1p2p_1 \neq p_2)。混合后观察到的杂合子频率为:

f(Aa)obs=2p1+p22q1+q22=2pˉqˉf(Aa)_{\text{obs}} = 2 \cdot \frac{p_1 + p_2}{2} \cdot \frac{q_1 + q_2}{2} = 2 \bar{p} \bar{q}

但如果两个亚群各自满足 HWE,真实杂合子频率的加权平均为:

f(Aa)true=12(2p1q1+2p2q2)=p1q1+p2q2f(Aa)_{\text{true}} = \frac{1}{2}(2p_1 q_1 + 2p_2 q_2) = p_1 q_1 + p_2 q_2

由于方差的凸性,f(Aa)true<f(Aa)obsf(Aa)_{\text{true}} < f(Aa)_{\text{obs}} 的期望(当两个亚群等量混合时等号成立)。更准确地说,混合群体的纯合子比例会偏高,杂合子比例会偏低——这就是 Wahlund 效应的核心。

近交系数(Inbreeding Coefficient, FF

Section titled “近交系数(Inbreeding Coefficient, FFF)”

近交系数 FF 量化了群体中纯合子比例相对于 HWE 期望的偏离程度:

f(AA)=p2+Fpqf(AA) = p^2 + Fpq f(Aa)=2pq(1F)f(Aa) = 2pq(1-F) f(aa)=q2+Fpqf(aa) = q^2 + Fpq

  • F=0F = 0:随机交配(HWE 成立)。
  • F=1F = 1:完全自交(只有纯合子)。
  • F>0F > 0:纯合子过剩(近交)。
  • F<0F < 0:杂合子过剩(负选型交配或超显性选择)。

在全基因组关联研究中,HWE 检验是过滤”垃圾信号”的强力工具。

  • 对照组(Controls):如果对照组位点偏离 HWE(如 p<106p < 10^{-6}),通常认为该位点是由于技术缺陷(如探针质量差)造成的假信号,应予以剔除。
  • 病例组(Cases)慎重过滤。与疾病强相关的致病位点在病例组中天然可能偏离 HWE,这是真实的生物学信号。

为什么对照组的 HWE 偏离更可能是技术问题?

Section titled “为什么对照组的 HWE 偏离更可能是技术问题?”

对照样本应代表”健康”群体的遗传背景。如果某个位点在对照组中偏离 HWE,最可能的原因不是自然选择或群体结构(这些因素同样影响病例组),而是:

  • 基因分型错误:探针或引物无法正确区分基因型,导致杂合子被错误分类为纯合子。
  • 比对歧义:在重复区域中,reads 被比对到错误的基因组位置,产生虚假的纯合信号。
  • 拷贝数变异(CNV):该位点位于拷贝数变异区域,导致基因型计数异常。
卡方检验(Chi-square)
适用于样本量较大的情况。通过比较观察计数与 HWE 期望计数之间的差异来计算显著性。
精确检验(Exact Test)
适用于稀有变异或小样本。它直接计算所有可能基因型组合的概率,是目前 GWAS 分析的工业标准。

设某位点有 nn 个个体,观察到 nAAn_{AA}AAAA 基因型、nAan_{Aa}AaAa 基因型、naan_{aa}aaaa 基因型。等位基因频率的估计为:

p^=2nAA+nAa2n,q^=2naa+nAa2n\hat{p} = \frac{2n_{AA} + n_{Aa}}{2n}, \quad \hat{q} = \frac{2n_{aa} + n_{Aa}}{2n}

HWE 期望计数为:

E(AA)=np^2,E(Aa)=2np^q^,E(aa)=nq^2E(AA) = n\hat{p}^2, \quad E(Aa) = 2n\hat{p}\hat{q}, \quad E(aa) = n\hat{q}^2

卡方统计量为:

χ2=genotypes(OE)2E\chi^2 = \sum_{\text{genotypes}} \frac{(O - E)^2}{E}

在零假设下,χ2\chi^2 近似服从自由度为 1 的卡方分布(因为三个基因型的自由度为 2,减去一个估计的参数 pp,剩余自由度为 1)。

当某些期望计数较小时(通常 E<5E < 5),卡方近似不可靠。精确检验通过枚举所有可能的基因型分布来计算精确的 P 值。

具体地,固定 nnp^\hat{p} 后,nAan_{Aa} 的所有可能取值为 0,1,2,,n0, 1, 2, \ldots, n(且保持 nAAn_{AA}naan_{aa} 为非负整数)。对于每个可能的 nAan_{Aa},计算其条件概率:

P(nAan,p^)n!nAA!nAa!naa!(p^2)nAA(2p^q^)nAa(q^2)naaP(n_{Aa} \mid n, \hat{p}) \propto \frac{n!}{n_{AA}! \, n_{Aa}! \, n_{aa}!} \, (\hat{p}^2)^{n_{AA}} (2\hat{p}\hat{q})^{n_{Aa}} (\hat{q}^2)^{n_{aa}}

P 值为所有概率不大于观测值的分布的概率之和。

在某群体中检测一个 SNP,观察到 1000 个个体的基因型分布如下:

基因型观察计数
AAAA420
AaAa400
aaaa180

该位点是否满足 HWE?

步骤 1:估计等位基因频率。

p^=2×420+4002×1000=12402000=0.62\hat{p} = \frac{2 \times 420 + 400}{2 \times 1000} = \frac{1240}{2000} = 0.62 q^=10.62=0.38\hat{q} = 1 - 0.62 = 0.38

步骤 2:计算 HWE 期望。

E(AA)=1000×0.622=384.4E(AA) = 1000 \times 0.62^2 = 384.4 E(Aa)=1000×2×0.62×0.38=471.2E(Aa) = 1000 \times 2 \times 0.62 \times 0.38 = 471.2 E(aa)=1000×0.382=144.4E(aa) = 1000 \times 0.38^2 = 144.4

步骤 3:计算卡方统计量。

χ2=(420384.4)2384.4+(400471.2)2471.2+(180144.4)2144.4\chi^2 = \frac{(420 - 384.4)^2}{384.4} + \frac{(400 - 471.2)^2}{471.2} + \frac{(180 - 144.4)^2}{144.4} =1267.36384.4+5068.84471.2+1267.36144.4= \frac{1267.36}{384.4} + \frac{5068.84}{471.2} + \frac{1267.36}{144.4} =3.30+10.76+8.78=22.84= 3.30 + 10.76 + 8.78 = 22.84

步骤 4:查表。自由度为 1,χ2=22.84\chi^2 = 22.84 对应 P<105P < 10^{-5}。该位点显著偏离 HWE

解读:观察到 AAAA 纯合子过剩(420 vs 384)和杂合子不足(400 vs 471),可能的原因包括群体分层或技术问题。

在生物信息学中,HWE 还提供了一个重要的实用功能:从基因型数据中估计等位基因频率

当数据满足 HWE 时,最大似然估计(MLE) 给出的等位基因频率为:

p^MLE=2nAA+nAa2n\hat{p}_{\text{MLE}} = \frac{2n_{AA} + n_{Aa}}{2n}

这与简单计数法给出的结果一致。但当 HWE 不成立时,MLE 估计可能需要考虑更复杂的模型(如考虑近交系数 FF)。