跳转到内容

群体结构

快速概览

群体结构(Population Structure)是指样本并非来自遗传均匀的单一群体,而是由具有不同祖源背景的亚群构成。这种不均匀性是 GWAS 中虚假关联的主要来源,必须通过统计手段进行校正。

  • 理解群体分化的衡量指标:$F_{ST}$ 系数
  • 掌握主成分分析(PCA) 如何在基因型空间中揭示样本的地理/历史背景
  • 理解混合人群(Admixture)的比例推断模型
  • 掌握在关联分析中控制群体混杂的算法策略
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

1. 群体结构的起源:隔离与漂变

Section titled “1. 群体结构的起源:隔离与漂变”

人类由于地理、文化或历史原因,在漫长的演化中形成了不同的亚群。

  • 遗传漂变(Genetic Drift):在小规模亚群中,碱基频率会由于随机采样发生剧烈波动。
  • 选择(Selection):不同环境导致特定位点在亚群间出现显著的频率差异。

数学表征(FSTF_{ST}FSTF_{ST} 用于量化亚群间的分化程度。

  • FST=0F_{ST} = 0:完全均匀混合。
  • FST=1F_{ST} = 1:完全分化(亚群间固定了不同的等位基因)。
  • 直觉:人类大洲间群体的 FSTF_{ST} 约为 0.1-0.15,说明 10-15% 的变异可由祖源差异解释。

考虑一个由 KK 个亚群组成的总体,设第 kk 个亚群的样本量为 nkn_k,等位基因 AA 在该亚群中的频率为 pkp_k。令总样本量为 N=k=1KnkN = \sum_{k=1}^{K} n_k,总体等位基因频率的加权均值为:

pˉ=k=1KnkNpk\bar{p} = \sum_{k=1}^{K} \frac{n_k}{N} p_k

FSTF_{ST} 可定义为:

FST=k=1KnkN(pkpˉ)2pˉ(1pˉ)F_{ST} = \frac{\sum_{k=1}^{K} \frac{n_k}{N}(p_k - \bar{p})^2}{\bar{p}(1 - \bar{p})}

分子衡量的是亚群间等位基因频率的方差,分母是总体等位基因频率的理论方差FSTF_{ST} 越大,说明亚群间的遗传分化越强烈。

Sewall Wright 将群体遗传变异分解为三个层级:

FST=σbetween2σtotal2=1HSHTF_{ST} = \frac{\sigma^2_{\text{between}}}{\sigma^2_{\text{total}}} = 1 - \frac{H_S}{H_T}

其中 HSH_S 是亚群内的平均杂合度(Expected Heterozygosity),HTH_T 是总体的杂合度。这一分解直接告诉我们:FSTF_{ST} 衡量的是亚群内丢失了多少遗传多样性

2. 识别工具:主成分分析(PCA)

Section titled “2. 识别工具:主成分分析(PCA)”

PCA 是识别群体结构最常用的降维工具。

  • 逻辑:将数百万个 SNP 投影到二维或三维空间中。
  • 发现:研究证明,基因型的前两个主成分(PC1 和 PC2)往往能完美映射出样本的地理起源(如”欧洲地图”效应)。
  • 算法用途:在 GWAS 中将这些 PC 作为协变量,可以有效抵消背景差异。

设我们有 nn 个个体和 mm 个 SNP 位点。基因型矩阵 XRn×m\mathbf{X} \in \mathbb{R}^{n \times m},其中 XijX_{ij} 为第 ii 个个体在第 jj 个位点上的基因型值(编码为 0、1、2)。

PCA 的计算步骤如下:

  1. 中心化:对每个 SNP 列减去其均值 μj\mu_j,得到 X~\tilde{\mathbf{X}}
  2. 协方差矩阵:计算 C=1mX~X~T\mathbf{C} = \frac{1}{m}\tilde{\mathbf{X}}\tilde{\mathbf{X}}^T(注意此处是对 SNP 维度求平均,与标准 PCA 的 1/n1/n 不同,这是 EIGENSOFT 的做法)。
  3. 特征分解:对 C\mathbf{C} 进行特征分解,取前 dd 个最大特征值对应的特征向量 v1,,vd\mathbf{v}_1, \ldots, \mathbf{v}_d

每个个体 ii 在第 kk 个主成分上的坐标为 vikv_{ik}。这些坐标就是我们在散点图中看到的”PC 值”。

直觉在于:如果群体中存在亚群结构,那么同一亚群的个体共享更多的等位基因。这种共享在基因型矩阵中表现为行之间的相关性——来自同一亚群的个体的行向量更为相似。PCA 的前几个主成分恰好捕捉了这种行间相关性最大的方向。

nn 很大时(如 UK Biobank 的 50 万样本),n×nn \times n 协方差矩阵的特征分解在计算上不可行。实际工具采用以下策略:

精确谱分解(Exact Eigendecomposition)
直接对协方差矩阵做特征分解。适用于样本量在数万以内的情况。EIGENSOFT 的早期版本采用此方法。
随机投影(Randomized SVD)
先通过随机矩阵将问题投影到低维空间,再进行精确分解。复杂度从 $O(n^3)$ 降至 $O(n^2 r)$,其中 $r$ 为目标维度。FlashPCA2 采用此策略。

许多现代人是多个祖先群体的混合。

  • STRUCTURE/ADMIXTURE 算法:假设存在 KK 个祖先群,计算每个个体来自这些祖先群的百分比。
  • 统计原理:基于隐马尔可夫模型(HMM) 或期望最大化(EM) 算法,通过观测到的 SNP 组合反推最可能的祖源构成。

假设存在 KK 个祖先群体。对于个体 ii,定义一个祖源比例向量 qi=(qi1,,qiK)\mathbf{q}_i = (q_{i1}, \ldots, q_{iK}),满足 k=1Kqik=1\sum_{k=1}^{K} q_{ik} = 1

每个祖先群体 kk 在第 jj 个 SNP 上具有等位基因频率 fkjf_{kj}。个体 ii 在该位点上的基因型概率为:

P(Gijqi,{fkj})=k=1KqikP(Gijfkj)P(G_{ij} \mid \mathbf{q}_i, \{f_{kj}\}) = \sum_{k=1}^{K} q_{ik} \cdot P(G_{ij} \mid f_{kj})

其中 P(Gijfkj)P(G_{ij} \mid f_{kj}) 是在群体 kk 的等位基因频率下观察到该基因型的概率(基于 Hardy—Weinberg 平衡)。

ADMIXTURE 使用块松弛 EM (Block Relaxation EM) 算法交替优化 q\mathbf{q}f\mathbf{f},并引入正则化项防止过拟合。

KK 的选择是 Admixture 分析中的关键问题。常用的策略包括:

  • 交叉验证(Cross-validation, CV):ADMIXTURE 内置 CV 功能,将数据随机分为训练集和验证集,选择使验证集似然最大的 KK。CV 误差在 KK 增加时通常会先下降后趋于平坦,“拐点”处即为合理的 KK 值。
  • 进化先验:结合考古学和语言学知识判断。例如对欧亚大陆人群,K=3K=3 通常能分离出非洲、欧洲和东亚三个主要祖源成分。

4. 为什么它是 GWAS 的”幽灵”?

Section titled “4. 为什么它是 GWAS 的”幽灵”?”

如果在病例组中正好包含了较多来自亚群 A 的样本,而对照组多来自亚群 B:

  • 任何在 A 和 B 之间频率不同的 SNP(即便与疾病无关)都会在统计上显示显著关联。
  • 后果:产生海量的假阳性信号,掩盖真实的致病变异。

假设我们研究某个疾病,病例组中 80% 来自亚群 A(某等位基因频率 pA=0.6p_A = 0.6),20% 来自亚群 B(pB=0.2p_B = 0.2);对照组中 20% 来自 A,80% 来自 B。

该等位基因在病例组中的混合频率为: pcase=0.8×0.6+0.2×0.2=0.52p_{\text{case}} = 0.8 \times 0.6 + 0.2 \times 0.2 = 0.52

在对照组中的混合频率为: pcontrol=0.2×0.6+0.8×0.2=0.28p_{\text{control}} = 0.2 \times 0.6 + 0.8 \times 0.2 = 0.28

尽管该等位基因与疾病完全无关,但由于两组的亚群构成不同,pcasep_{\text{case}}pcontrolp_{\text{control}} 出现了巨大差异,在统计检验中将产生高度显著的假阳性信号。

将 PCA 提取的前若干个主成分(通常是 PC1—PC10)作为协变量加入回归模型:

Yi=β0+βgGi+k=1dγkPCik+ϵiY_i = \beta_0 + \beta_g G_i + \sum_{k=1}^{d} \gamma_k \text{PC}_{ik} + \epsilon_i

其中 YiY_i 是表型,GiG_i 是基因型,PCik\text{PC}_{ik} 是第 kk 个主成分。βg\beta_g 即为校正群体结构后的关联效应。

线性混合模型(Linear Mixed Model, LMM)

Section titled “线性混合模型(Linear Mixed Model, LMM)”

当群体结构非常复杂(如存在隐匿的亲缘关系或精细分层)时,PCA 可能不足以完全捕获混杂。LMM 通过引入遗传亲缘关系矩阵(Genetic Relationship Matrix, GRM) 来建模个体间的全基因组相似度:

K=1mX~X~T\mathbf{K} = \frac{1}{m}\tilde{\mathbf{X}}\tilde{\mathbf{X}}^T

LMM 的模型形式为:

Y=Xβ+u+ϵ\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u} + \boldsymbol{\epsilon}

其中 uN(0,σg2K)\mathbf{u} \sim \mathcal{N}(\mathbf{0}, \sigma_g^2 \mathbf{K}) 为随机效应,ϵN(0,σe2I)\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma_e^2 \mathbf{I}) 为残差。σg2/(σg2+σe2)\sigma_g^2 / (\sigma_g^2 + \sigma_e^2) 被称为遗传力(Heritability) 的 SNP 估计值。

LMM 的优势在于:即使不显式提取 PC,GRM 本身就已经编码了所有成对亲缘关系信息,因此能更灵活地处理复杂的群体结构。

维度 PCA 校正 LMM
计算速度 较慢(需估计方差分量)
模型假设 线性协变量 正态随机效应
适用场景 中等程度群体分层 近亲、精细分层、样本间亲缘关系复杂
代表工具 PLINK, EIGENSOFT GEMMA, BOLT-LMM, SAIGE

群体结构分析不仅服务于 GWAS,还广泛应用于以下领域:

  • 祖源推断(Ancestry Inference):在法医学中推断未知样本的地理来源;在临床遗传学中识别患者的祖源背景以选择合适的参考面板。
  • 自然选择检测:通过 FSTF_{ST} 扫描寻找在特定人群中受到强烈选择的基因组区域,如乳糖酶基因(LCT)在欧洲人群中的选择性清除。
  • 群体历史重建:结合 PCA 和 Admixture 分析重建人类走出非洲、跨大陆迁徙的历史。
  • 复制研究设计:在跨祖源的 GWAS 复制研究中,合理匹配病例组和对照组的祖源构成是保证复制可靠性的前提。