群体遗传学

快速概览

群体遗传学研究等位基因频率在群体中如何分布、变化，以及如何被进化力量（自然选择、遗传漂变、迁移、重组）塑造。它为理解变异在人群中的意义、GWAS 的统计框架和进化机制提供理论基础。

核心是从群体尺度理解变异频率和分布，而非单个位点
Hardy–Weinberg 平衡、连锁不平衡和群体结构是三大理论基石
GWAS 假阳性控制和 fine-mapping 都依赖群体遗传学原理

为什么研究群体遗传学

想象你正在分析一个刚发现的罕见变异。在一位患者身上检测到它，如何判断这是否与疾病相关？一个简单的直觉是：如果该变异在健康人群中也频繁出现，它不太可能是致病原因。但”频繁”的标准是什么？不同人群的基线频率差异巨大——在欧洲人群中罕见的变异，可能在东亚人群中相对常见。

群体遗传学解决的核心问题是：如何在一个群体框架下理解和解释遗传变异？

具体而言，它关注：

变异的群体分布：等位基因频率如何因地理、历史和进化因素而异；
基因型与等位基因的关系：从基因型频率推断等位基因频率的数学基础；
位点间的关联：物理距离如何影响不同变异之间的共遗传；
亚群结构的影响：群体分层如何干扰关联分析；
进化的痕迹：自然选择、遗传漂变在基因组上留下的印记。

在生物信息学实践中，群体遗传学是 GWAS 的统计基础、变异临床解释的频率参考、以及理解人类进化历史的理论框架。

为什么重要

变异解释需要群体背景

单个位点的变异频率不能孤立解释：

一个罕见变异可能在某些人群中相对常见（人群特异性）；
变异致病性需要考虑其在人群中的频率和分布；
携带者频率（carrier frequency）与疾病发病率的关系需要群体遗传学模型。

GWAS 假阳性控制

GWAS 最大的挑战之一是群体结构导致的假阳性：

如果病例和对照来自不同祖源群体，某些位点的频率差异可能反映祖源而非疾病；
需要 PCA、线性混合模型等方法校正群体分层；
Hardy–Weinberg 平衡偏离也是质量控制的重要指标。

Fine-mapping 的基础

连锁不平衡决定了变异之间的相关性：

LD block 内的多个变异高度相关，难以区分因果变异；
Tag SNP 策略利用 LD 减少需要检测的位点数；
Fine-mapping 需要理解 LD 结构和重组热区。

进化机制理解

群体遗传学帮助理解：

为什么某些变异在不同人群中频率差异巨大；
选择压力如何塑造基因组（如清除选择、平衡选择）；
人类迁徙历史和混合事件如何影响现代人群的遗传结构。

核心理论框架

1. Hardy–Weinberg 平衡：随机交配的数学推论

1908年，G. H. Hardy 和 Wilhelm Weinberg 独立证明了一个基本定理：在一个理想化的随机交配群体中，如果没有突变、选择、迁移和遗传漂变，等位基因频率和基因型频率将在代际间保持稳定。

对于双等位基因位点，若等位基因频率为 $p$ 和 $q$ （ $p + q = 1$ ），则基因型频率满足：

$f(AA) = p^2, \quad f(Aa) = 2pq, \quad f(aa) = q^2$

这一简单关系是群体遗传学的数学基石。它不仅提供了计算等位基因频率的理论基础，更重要的是——偏离 HWE 往往是数据质量问题或真实生物学信号的第一个警示。

常见偏离原因：

非随机交配：近亲繁殖或群体分层导致纯合子 excess；
选择压力：有害变异的负选择或有利变异的正选择；
遗传漂变：小群体中的随机采样波动；
技术因素：分型错误、测序偏差或样本污染。

2. 连锁不平衡（LD）：重组的对抗力量

连锁不平衡描述的是：在群体中，不同位点上的等位基因并非独立组合，而是以高于（或低于）随机期望的频率共同出现。

考虑两个位点 A 和 B。如果它们完全独立，则单倍型 AB 的频率应等于 $p_A \times p_B$ 。若观察到的频率 $P_{AB}$ 显著偏离此期望值，则存在连锁不平衡：

$D = P_{AB} - p_A p_B$

LD 的产生源于重组的历史限制——当两个位点在染色体上距离较近时，世代间的重组事件难以将它们打散。因此，LD 的衰减速度直接反映了群体的重组历史和有效群体大小。

常用度量指标：

$D'$ ：标准化的 LD 系数，范围 $[0, 1]$ ，适用于不同频率位点的比较；
$r^2$ ：相关系数的平方，直接反映一个位点预测另一个位点的能力；
Haplotype block：基因组中 LD 高度连贯的区域，暗示重组抑制。

LD 对生物信息学实践的影响深远：

GWAS 的信号扩散：显著位点周围的高 LD SNP 形成关联信号峰；
Tag SNP 策略：利用 LD 结构，用少量 SNP 代表整个 block 的信息；
Fine-mapping 挑战：高 LD 区域难以区分真正的因果变异与统计伴随。

3. 群体结构：混杂的根源

群体结构（population structure）指样本并非来自一个遗传上均匀混合的群体，而是由具有不同祖源背景的亚群体构成。这种结构是 GWAS 中最隐蔽也最危险的混杂来源。

假设病例组主要来自群体 A，对照组主要来自群体 B。即使所研究的 SNP 与疾病无关，由于群体 A 和 B 在该位点的基线频率差异，也会产生显著的虚假关联。

主成分分析（PCA）是检测群体结构的常用工具。在基因型矩阵上进行 PCA，前几个主成分往往对应主要的祖源轴——样本在 PC1-PC2 平面上的分布常与地理来源高度一致。

其他检测与校正方法：

ADMIXTURE：基于模型的祖源成分估计；
$F_{ST}$ ：衡量亚群间遗传分化程度；
线性混合模型：在关联检验中直接建模个体间的遗传相似性。

标准分析流程

1. 数据准备

基因型数据：PLINK 格式（.bed/.bim/.fam）或 VCF；
质量控制：去除低质量样本和位点（缺失率、MAF、HWE）；
参考数据：如 1000 Genomes、gnomAD 作为频率参考。

2. 基础统计

等位基因频率：计算每个位点的频率；
Hardy–Weinberg 检验：识别偏离平衡的位点；
LD 计算：计算位点间的 D’ 和 r²。

3. 群体结构分析

PCA：识别主要遗传成分；
ADMIXTURE：估计祖源成分；
系统发育树：构建样本间的遗传关系。

4. 关联分析（GWAS）

关联检验：线性/逻辑回归检验基因型-表型关联；
多重检验校正：控制 FDR 或使用 Bonferroni；
群体校正：加入 PCA 主成分或使用混合模型。

输入输出

输入

基因型数据：PLINK 格式或 VCF；
表型数据：定量性状、二分类性状等；
协变量：年龄、性别、PC 主成分等；
参考数据：用于频率比较或祖源估计。

输出

等位基因频率：每个位点的频率；
LD 矩阵：位点间的 LD 关系；
PCA 坐标：样本的主成分坐标；
关联结果：p-value、效应大小、置信区间；
祖源估计：个体的祖源成分比例。

群体遗传学

为什么研究群体遗传学

为什么重要

变异解释需要群体背景

GWAS 假阳性控制

Fine-mapping 的基础

进化机制理解

核心理论框架

1. Hardy–Weinberg 平衡：随机交配的数学推论

2. 连锁不平衡（LD）：重组的对抗力量

3. 群体结构：混杂的根源

标准分析流程

1. 数据准备

2. 基础统计

3. 群体结构分析

4. 关联分析（GWAS）

输入输出

输入

输出

推荐阅读顺序

子主题导航

Hardy–Weinberg 平衡

连锁不平衡

GWAS

群体结构

与其他板块的连接

群体遗传学

为什么研究群体遗传学

为什么重要

变异解释需要群体背景

GWAS 假阳性控制

Fine-mapping 的基础

进化机制理解

核心理论框架

1. Hardy–Weinberg 平衡：随机交配的数学推论

2. 连锁不平衡（LD）：重组的对抗力量

3. 群体结构：混杂的根源

标准分析流程

1. 数据准备

2. 基础统计

3. 群体结构分析

4. 关联分析（GWAS）

输入输出

输入

输出

推荐阅读顺序

子主题导航

Hardy–Weinberg 平衡

连锁不平衡

GWAS

群体结构

与其他板块的连接

DNA-seq 变异检测总览

系统发育树

临床变异解释