群体遗传学
群体遗传学研究等位基因频率在群体中如何分布、变化,以及如何被进化力量(自然选择、遗传漂变、迁移、重组)塑造。它为理解变异在人群中的意义、GWAS 的统计框架和进化机制提供理论基础。
- 核心是从群体尺度理解变异频率和分布,而非单个位点
- Hardy–Weinberg 平衡、连锁不平衡和群体结构是三大理论基石
- GWAS 假阳性控制和 fine-mapping 都依赖群体遗传学原理
为什么研究群体遗传学
Section titled “为什么研究群体遗传学”想象你正在分析一个刚发现的罕见变异。在一位患者身上检测到它,如何判断这是否与疾病相关?一个简单的直觉是:如果该变异在健康人群中也频繁出现,它不太可能是致病原因。但”频繁”的标准是什么?不同人群的基线频率差异巨大——在欧洲人群中罕见的变异,可能在东亚人群中相对常见。
群体遗传学解决的核心问题是:如何在一个群体框架下理解和解释遗传变异?
具体而言,它关注:
- 变异的群体分布:等位基因频率如何因地理、历史和进化因素而异;
- 基因型与等位基因的关系:从基因型频率推断等位基因频率的数学基础;
- 位点间的关联:物理距离如何影响不同变异之间的共遗传;
- 亚群结构的影响:群体分层如何干扰关联分析;
- 进化的痕迹:自然选择、遗传漂变在基因组上留下的印记。
在生物信息学实践中,群体遗传学是 GWAS 的统计基础、变异临床解释的频率参考、以及理解人类进化历史的理论框架。
变异解释需要群体背景
Section titled “变异解释需要群体背景”单个位点的变异频率不能孤立解释:
- 一个罕见变异可能在某些人群中相对常见(人群特异性);
- 变异致病性需要考虑其在人群中的频率和分布;
- 携带者频率(carrier frequency)与疾病发病率的关系需要群体遗传学模型。
GWAS 假阳性控制
Section titled “GWAS 假阳性控制”GWAS 最大的挑战之一是群体结构导致的假阳性:
- 如果病例和对照来自不同祖源群体,某些位点的频率差异可能反映祖源而非疾病;
- 需要 PCA、线性混合模型等方法校正群体分层;
- Hardy–Weinberg 平衡偏离也是质量控制的重要指标。
Fine-mapping 的基础
Section titled “Fine-mapping 的基础”连锁不平衡决定了变异之间的相关性:
- LD block 内的多个变异高度相关,难以区分因果变异;
- Tag SNP 策略利用 LD 减少需要检测的位点数;
- Fine-mapping 需要理解 LD 结构和重组热区。
进化机制理解
Section titled “进化机制理解”群体遗传学帮助理解:
- 为什么某些变异在不同人群中频率差异巨大;
- 选择压力如何塑造基因组(如清除选择、平衡选择);
- 人类迁徙历史和混合事件如何影响现代人群的遗传结构。
核心理论框架
Section titled “核心理论框架”1. Hardy–Weinberg 平衡:随机交配的数学推论
Section titled “1. Hardy–Weinberg 平衡:随机交配的数学推论”1908年,G. H. Hardy 和 Wilhelm Weinberg 独立证明了一个基本定理:在一个理想化的随机交配群体中,如果没有突变、选择、迁移和遗传漂变,等位基因频率和基因型频率将在代际间保持稳定。
对于双等位基因位点,若等位基因频率为 和 (),则基因型频率满足:
这一简单关系是群体遗传学的数学基石。它不仅提供了计算等位基因频率的理论基础,更重要的是——偏离 HWE 往往是数据质量问题或真实生物学信号的第一个警示。
常见偏离原因:
- 非随机交配:近亲繁殖或群体分层导致纯合子 excess;
- 选择压力:有害变异的负选择或有利变异的正选择;
- 遗传漂变:小群体中的随机采样波动;
- 技术因素:分型错误、测序偏差或样本污染。
2. 连锁不平衡(LD):重组的对抗力量
Section titled “2. 连锁不平衡(LD):重组的对抗力量”连锁不平衡描述的是:在群体中,不同位点上的等位基因并非独立组合,而是以高于(或低于)随机期望的频率共同出现。
考虑两个位点 A 和 B。如果它们完全独立,则单倍型 AB 的频率应等于 。若观察到的频率 显著偏离此期望值,则存在连锁不平衡:
LD 的产生源于重组的历史限制——当两个位点在染色体上距离较近时,世代间的重组事件难以将它们打散。因此,LD 的衰减速度直接反映了群体的重组历史和有效群体大小。
常用度量指标:
- :标准化的 LD 系数,范围 ,适用于不同频率位点的比较;
- :相关系数的平方,直接反映一个位点预测另一个位点的能力;
- Haplotype block:基因组中 LD 高度连贯的区域,暗示重组抑制。
LD 对生物信息学实践的影响深远:
- GWAS 的信号扩散:显著位点周围的高 LD SNP 形成关联信号峰;
- Tag SNP 策略:利用 LD 结构,用少量 SNP 代表整个 block 的信息;
- Fine-mapping 挑战:高 LD 区域难以区分真正的因果变异与统计伴随。
3. 群体结构:混杂的根源
Section titled “3. 群体结构:混杂的根源”群体结构(population structure)指样本并非来自一个遗传上均匀混合的群体,而是由具有不同祖源背景的亚群体构成。这种结构是 GWAS 中最隐蔽也最危险的混杂来源。
假设病例组主要来自群体 A,对照组主要来自群体 B。即使所研究的 SNP 与疾病无关,由于群体 A 和 B 在该位点的基线频率差异,也会产生显著的虚假关联。
主成分分析(PCA)是检测群体结构的常用工具。在基因型矩阵上进行 PCA,前几个主成分往往对应主要的祖源轴——样本在 PC1-PC2 平面上的分布常与地理来源高度一致。
其他检测与校正方法:
- ADMIXTURE:基于模型的祖源成分估计;
- :衡量亚群间遗传分化程度;
- 线性混合模型:在关联检验中直接建模个体间的遗传相似性。
标准分析流程
Section titled “标准分析流程”1. 数据准备
Section titled “1. 数据准备”- 基因型数据:PLINK 格式(.bed/.bim/.fam)或 VCF;
- 质量控制:去除低质量样本和位点(缺失率、MAF、HWE);
- 参考数据:如 1000 Genomes、gnomAD 作为频率参考。
2. 基础统计
Section titled “2. 基础统计”- 等位基因频率:计算每个位点的频率;
- Hardy–Weinberg 检验:识别偏离平衡的位点;
- LD 计算:计算位点间的 D’ 和 r²。
3. 群体结构分析
Section titled “3. 群体结构分析”- PCA:识别主要遗传成分;
- ADMIXTURE:估计祖源成分;
- 系统发育树:构建样本间的遗传关系。
4. 关联分析(GWAS)
Section titled “4. 关联分析(GWAS)”- 关联检验:线性/逻辑回归检验基因型-表型关联;
- 多重检验校正:控制 FDR 或使用 Bonferroni;
- 群体校正:加入 PCA 主成分或使用混合模型。
- 基因型数据:PLINK 格式或 VCF;
- 表型数据:定量性状、二分类性状等;
- 协变量:年龄、性别、PC 主成分等;
- 参考数据:用于频率比较或祖源估计。
- 等位基因频率:每个位点的频率;
- LD 矩阵:位点间的 LD 关系;
- PCA 坐标:样本的主成分坐标;
- 关联结果:p-value、效应大小、置信区间;
- 祖源估计:个体的祖源成分比例。
推荐阅读顺序
Section titled “推荐阅读顺序”Hardy–Weinberg 平衡
理解基因型频率、等位基因频率与偏离平衡的原因。
进入子主题连锁不平衡
理解 LD、重组、haplotype block 与 tag SNP。
进入子主题GWAS
从关联检验到 Manhattan plot 和群体校正。
进入子主题群体结构
PCA、ADMIXTURE 与群体分层校正。
进入子主题