跳转到内容

群体遗传学

快速概览

群体遗传学研究等位基因频率在群体中如何分布、变化,以及如何被进化力量(自然选择、遗传漂变、迁移、重组)塑造。它为理解变异在人群中的意义、GWAS 的统计框架和进化机制提供理论基础。

  • 核心是从群体尺度理解变异频率和分布,而非单个位点
  • Hardy–Weinberg 平衡、连锁不平衡和群体结构是三大理论基石
  • GWAS 假阳性控制和 fine-mapping 都依赖群体遗传学原理

想象你正在分析一个刚发现的罕见变异。在一位患者身上检测到它,如何判断这是否与疾病相关?一个简单的直觉是:如果该变异在健康人群中也频繁出现,它不太可能是致病原因。但”频繁”的标准是什么?不同人群的基线频率差异巨大——在欧洲人群中罕见的变异,可能在东亚人群中相对常见。

群体遗传学解决的核心问题是:如何在一个群体框架下理解和解释遗传变异?

具体而言,它关注:

  • 变异的群体分布:等位基因频率如何因地理、历史和进化因素而异;
  • 基因型与等位基因的关系:从基因型频率推断等位基因频率的数学基础;
  • 位点间的关联:物理距离如何影响不同变异之间的共遗传;
  • 亚群结构的影响:群体分层如何干扰关联分析;
  • 进化的痕迹:自然选择、遗传漂变在基因组上留下的印记。

在生物信息学实践中,群体遗传学是 GWAS 的统计基础、变异临床解释的频率参考、以及理解人类进化历史的理论框架。

单个位点的变异频率不能孤立解释:

  • 一个罕见变异可能在某些人群中相对常见(人群特异性);
  • 变异致病性需要考虑其在人群中的频率和分布;
  • 携带者频率(carrier frequency)与疾病发病率的关系需要群体遗传学模型。

GWAS 最大的挑战之一是群体结构导致的假阳性:

  • 如果病例和对照来自不同祖源群体,某些位点的频率差异可能反映祖源而非疾病;
  • 需要 PCA、线性混合模型等方法校正群体分层;
  • Hardy–Weinberg 平衡偏离也是质量控制的重要指标。

连锁不平衡决定了变异之间的相关性:

  • LD block 内的多个变异高度相关,难以区分因果变异;
  • Tag SNP 策略利用 LD 减少需要检测的位点数;
  • Fine-mapping 需要理解 LD 结构和重组热区。

群体遗传学帮助理解:

  • 为什么某些变异在不同人群中频率差异巨大;
  • 选择压力如何塑造基因组(如清除选择、平衡选择);
  • 人类迁徙历史和混合事件如何影响现代人群的遗传结构。

1. Hardy–Weinberg 平衡:随机交配的数学推论

Section titled “1. Hardy–Weinberg 平衡:随机交配的数学推论”

1908年,G. H. Hardy 和 Wilhelm Weinberg 独立证明了一个基本定理:在一个理想化的随机交配群体中,如果没有突变、选择、迁移和遗传漂变,等位基因频率和基因型频率将在代际间保持稳定。

对于双等位基因位点,若等位基因频率为 ppqqp+q=1p + q = 1),则基因型频率满足:

f(AA)=p2,f(Aa)=2pq,f(aa)=q2f(AA) = p^2, \quad f(Aa) = 2pq, \quad f(aa) = q^2

这一简单关系是群体遗传学的数学基石。它不仅提供了计算等位基因频率的理论基础,更重要的是——偏离 HWE 往往是数据质量问题或真实生物学信号的第一个警示

常见偏离原因:

  • 非随机交配:近亲繁殖或群体分层导致纯合子 excess;
  • 选择压力:有害变异的负选择或有利变异的正选择;
  • 遗传漂变:小群体中的随机采样波动;
  • 技术因素:分型错误、测序偏差或样本污染。

2. 连锁不平衡(LD):重组的对抗力量

Section titled “2. 连锁不平衡(LD):重组的对抗力量”

连锁不平衡描述的是:在群体中,不同位点上的等位基因并非独立组合,而是以高于(或低于)随机期望的频率共同出现。

考虑两个位点 A 和 B。如果它们完全独立,则单倍型 AB 的频率应等于 pA×pBp_A \times p_B。若观察到的频率 PABP_{AB} 显著偏离此期望值,则存在连锁不平衡:

D=PABpApBD = P_{AB} - p_A p_B

LD 的产生源于重组的历史限制——当两个位点在染色体上距离较近时,世代间的重组事件难以将它们打散。因此,LD 的衰减速度直接反映了群体的重组历史和有效群体大小。

常用度量指标:

  • DD':标准化的 LD 系数,范围 [0,1][0, 1],适用于不同频率位点的比较;
  • r2r^2:相关系数的平方,直接反映一个位点预测另一个位点的能力;
  • Haplotype block:基因组中 LD 高度连贯的区域,暗示重组抑制。

LD 对生物信息学实践的影响深远:

  • GWAS 的信号扩散:显著位点周围的高 LD SNP 形成关联信号峰;
  • Tag SNP 策略:利用 LD 结构,用少量 SNP 代表整个 block 的信息;
  • Fine-mapping 挑战:高 LD 区域难以区分真正的因果变异与统计伴随。

群体结构(population structure)指样本并非来自一个遗传上均匀混合的群体,而是由具有不同祖源背景的亚群体构成。这种结构是 GWAS 中最隐蔽也最危险的混杂来源。

假设病例组主要来自群体 A,对照组主要来自群体 B。即使所研究的 SNP 与疾病无关,由于群体 A 和 B 在该位点的基线频率差异,也会产生显著的虚假关联。

主成分分析(PCA)是检测群体结构的常用工具。在基因型矩阵上进行 PCA,前几个主成分往往对应主要的祖源轴——样本在 PC1-PC2 平面上的分布常与地理来源高度一致。

其他检测与校正方法:

  • ADMIXTURE:基于模型的祖源成分估计;
  • FSTF_{ST}:衡量亚群间遗传分化程度;
  • 线性混合模型:在关联检验中直接建模个体间的遗传相似性。
  • 基因型数据:PLINK 格式(.bed/.bim/.fam)或 VCF;
  • 质量控制:去除低质量样本和位点(缺失率、MAF、HWE);
  • 参考数据:如 1000 Genomes、gnomAD 作为频率参考。
  • 等位基因频率:计算每个位点的频率;
  • Hardy–Weinberg 检验:识别偏离平衡的位点;
  • LD 计算:计算位点间的 D’ 和 r²。
  • PCA:识别主要遗传成分;
  • ADMIXTURE:估计祖源成分;
  • 系统发育树:构建样本间的遗传关系。
  • 关联检验:线性/逻辑回归检验基因型-表型关联;
  • 多重检验校正:控制 FDR 或使用 Bonferroni;
  • 群体校正:加入 PCA 主成分或使用混合模型。
  • 基因型数据:PLINK 格式或 VCF;
  • 表型数据:定量性状、二分类性状等;
  • 协变量:年龄、性别、PC 主成分等;
  • 参考数据:用于频率比较或祖源估计。
  • 等位基因频率:每个位点的频率;
  • LD 矩阵:位点间的 LD 关系;
  • PCA 坐标:样本的主成分坐标;
  • 关联结果:p-value、效应大小、置信区间;
  • 祖源估计:个体的祖源成分比例。
  1. Hardy–Weinberg 平衡
  2. 连锁不平衡
  3. GWAS
  4. 群体结构