Hardy–Weinberg 平衡
Hardy–Weinberg 平衡(HWE)是群体遗传学的理论基石。它证明了在理想条件下,等位基因频率和基因型频率将在代际间保持不变。这一模型为识别进化压力和评估测序质量提供了关键参照。
- 理解随机交配下基因型频率的数学推导:$p^2 + 2pq + q^2 = 1$
- 掌握 HWE 的五个理想假设条件:大群体、随机交配、无突变、无选择、无迁移
- 学习如何利用卡方检验或精确检验评估位点是否偏离平衡
- 掌握 HWE 过滤在 GWAS 质量控制中的应用逻辑
1. 理想群体的稳定性
Section titled “1. 理想群体的稳定性”1908 年,Hardy 和 Weinberg 独立证明了一个深刻的结论:在没有进化动力干扰的情况下,孟德尔遗传本身不会改变群体的遗传组成。
设等位基因 的频率为 ,等位基因 的频率为 ()。 在随机交配下,下一代的基因型频率将达到平衡:
直觉:这就像是从一个巨大的”基因池”中随机抽取两个碱基。抽取两个 的概率是 ,抽取一个 一个 的组合有两种( 或 ),概率为 。
Punnett 方格推导
Section titled “Punnett 方格推导”使用 Punnett 方格可以更直观地理解这一推导过程。设父方和母方的等位基因频率相同(因为群体等位基因频率不因性别而异),则:
| () | () | |
|---|---|---|
| () | () | () |
| () | () | () |
汇总后得到基因型频率:。
平衡的代际稳定性
Section titled “平衡的代际稳定性”HWE 的一个关键性质是:一旦达到平衡,基因型频率将永远保持不变。证明如下:
设第 代的等位基因频率为 和 。第 代的基因型频率为:
第 代的等位基因频率为:
因此 ,等位基因频率在代际间保持不变。这意味着 HWE 不仅是一个平衡状态,而且是一个稳定平衡——任何偏离都会在一代之内恢复。
2. HWE 的五个假设条件
Section titled “2. HWE 的五个假设条件”HWE 的成立依赖以下五个理想假设。在自然界中,这些条件几乎不可能同时满足,但 HWE 的价值恰恰在于:当实际数据偏离 HWE 时,说明至少有一个假设被打破了。
- 无限大的群体(Infinite Population)
- 消除遗传漂变的影响。实际群体是有限的,小群体中漂变会导致等位基因频率随机波动,最终可能固定或丢失。
- 随机交配(Random Mating)
- 个体间的交配不依赖于基因型。近亲繁殖(Inbreeding) 是最常见的非随机交配形式,会增加纯合子的比例。
- 无突变(No Mutation)
- 等位基因之间不发生转换。实际突变率约为 $10^{-8}$ 每碱基每代,虽然很低但长期累积会影响频率。
- 无选择(No Selection)
- 所有基因型的适合度(Fitness) 相同。自然选择会改变等位基因频率,使有利等位基因的频率逐代增加。
- 无迁移(No Migration)
- 没有个体迁入或迁出。基因流(Gene Flow) 会引入新的等位基因或改变现有频率。
3. 平衡的破坏:进化的证据
Section titled “3. 平衡的破坏:进化的证据”如果一个位点显著偏离 HWE,通常意味着以下情况之一正在发生:
- 选择(Selection):某种基因型具有生存优势。
- 群体分层(Population Stratification):样本其实来自两个演化背景不同的亚群(Wahlund 效应)。
- 近亲繁殖(Inbreeding):增加了纯合子的比例。
- 技术噪音:这是生物信息学中最常见的解释——该位点可能存在测序错误或比对歧义。
Wahlund 效应
Section titled “Wahlund 效应”当样本中混合了两个等位基因频率不同的亚群时,即使每个亚群内部都满足 HWE,混合后的整体也会偏离 HWE。
设亚群 1 中等位基因 的频率为 ,亚群 2 中为 ()。混合后观察到的杂合子频率为:
但如果两个亚群各自满足 HWE,真实杂合子频率的加权平均为:
由于方差的凸性, 的期望(当两个亚群等量混合时等号成立)。更准确地说,混合群体的纯合子比例会偏高,杂合子比例会偏低——这就是 Wahlund 效应的核心。
近交系数(Inbreeding Coefficient, )
Section titled “近交系数(Inbreeding Coefficient, FFF)”近交系数 量化了群体中纯合子比例相对于 HWE 期望的偏离程度:
- :随机交配(HWE 成立)。
- :完全自交(只有纯合子)。
- :纯合子过剩(近交)。
- :杂合子过剩(负选型交配或超显性选择)。
4. 在 GWAS 中的质量控制(QC)
Section titled “4. 在 GWAS 中的质量控制(QC)”在全基因组关联研究中,HWE 检验是过滤”垃圾信号”的强力工具。
- 对照组(Controls):如果对照组位点偏离 HWE(如 ),通常认为该位点是由于技术缺陷(如探针质量差)造成的假信号,应予以剔除。
- 病例组(Cases):慎重过滤。与疾病强相关的致病位点在病例组中天然可能偏离 HWE,这是真实的生物学信号。
为什么对照组的 HWE 偏离更可能是技术问题?
Section titled “为什么对照组的 HWE 偏离更可能是技术问题?”对照样本应代表”健康”群体的遗传背景。如果某个位点在对照组中偏离 HWE,最可能的原因不是自然选择或群体结构(这些因素同样影响病例组),而是:
- 基因分型错误:探针或引物无法正确区分基因型,导致杂合子被错误分类为纯合子。
- 比对歧义:在重复区域中,reads 被比对到错误的基因组位置,产生虚假的纯合信号。
- 拷贝数变异(CNV):该位点位于拷贝数变异区域,导致基因型计数异常。
5. 统计检验方法
Section titled “5. 统计检验方法”- 卡方检验(Chi-square)
- 适用于样本量较大的情况。通过比较观察计数与 HWE 期望计数之间的差异来计算显著性。
- 精确检验(Exact Test)
- 适用于稀有变异或小样本。它直接计算所有可能基因型组合的概率,是目前 GWAS 分析的工业标准。
卡方检验的数学形式
Section titled “卡方检验的数学形式”设某位点有 个个体,观察到 个 基因型、 个 基因型、 个 基因型。等位基因频率的估计为:
HWE 期望计数为:
卡方统计量为:
在零假设下, 近似服从自由度为 1 的卡方分布(因为三个基因型的自由度为 2,减去一个估计的参数 ,剩余自由度为 1)。
当某些期望计数较小时(通常 ),卡方近似不可靠。精确检验通过枚举所有可能的基因型分布来计算精确的 P 值。
具体地,固定 和 后, 的所有可能取值为 (且保持 和 为非负整数)。对于每个可能的 ,计算其条件概率:
P 值为所有概率不大于观测值的分布的概率之和。
6. Worked Example:HWE 检验
Section titled “6. Worked Example:HWE 检验”在某群体中检测一个 SNP,观察到 1000 个个体的基因型分布如下:
| 基因型 | 观察计数 |
|---|---|
| 420 | |
| 400 | |
| 180 |
该位点是否满足 HWE?
步骤 1:估计等位基因频率。
步骤 2:计算 HWE 期望。
步骤 3:计算卡方统计量。
步骤 4:查表。自由度为 1, 对应 。该位点显著偏离 HWE。
解读:观察到 纯合子过剩(420 vs 384)和杂合子不足(400 vs 471),可能的原因包括群体分层或技术问题。
7. HWE 与等位基因频率估计
Section titled “7. HWE 与等位基因频率估计”在生物信息学中,HWE 还提供了一个重要的实用功能:从基因型数据中估计等位基因频率。
当数据满足 HWE 时,最大似然估计(MLE) 给出的等位基因频率为:
这与简单计数法给出的结果一致。但当 HWE 不成立时,MLE 估计可能需要考虑更复杂的模型(如考虑近交系数 )。