GWAS：全基因组关联研究

快速概览

GWAS 是一种在全基因组范围内系统扫描遗传变异，寻找与复杂表型（如高度、疾病易感性）存在统计学关联的 SNP 的方法。它将基因定位从传统的家系连锁分析推向了大规模群体的病例-对照研究。

掌握 GWAS 的统计模型：线性回归（定量性状）与 Logistic 回归（二分类性状）
理解全基因组显著性阈值 $5 imes 10^{-8}$ 的多重检验背景
掌握主成分分析（PCA）与线性混合模型（LMM）如何控制群体结构混杂
理解曼哈顿图（Manhattan Plot）与 QQ 图的质量评估意义

1. 统计模型：寻找关联的刻度

GWAS 的核心是针对每个 SNP 进行独立的统计检验。

基因型编码

通常采用加性模型（Additive Model），将基因型编码为次要等位基因的数量： $0, 1, 2$ 。

回归分析

定量性状（如身高）：使用线性回归。
分类性状（如是否患病）：使用 Logistic 回归。
- 关键指标：比值比（Odds Ratio, OR）。 $OR > 1$ 表示该等位基因是风险因素。

线性回归的数学形式

对于定量性状，第 $j$ 个 SNP 的关联模型为：

$Y_i = \beta_0 + \beta_j G_{ij} + \sum_{k=1}^{d} \gamma_k C_{ik} + \epsilon_i$

其中：

$Y_i$ 是第 $i$ 个个体的表型值
$G_{ij}$ 是第 $i$ 个个体在第 $j$ 个 SNP 上的基因型（0/1/2）
$C_{ik}$ 是第 $k$ 个协变量（如年龄、性别、主成分）
$\beta_j$ 是关联效应量
$\epsilon_i \sim \mathcal{N}(0, \sigma^2)$

零假设为 $H_0: \beta_j = 0$ 。在零假设下，检验统计量服从 $t$ 分布或近似正态分布。

Logistic 回归的数学形式

对于二分类性状，模型为：

$\log\left(\frac{P(Y_i = 1)}{1 - P(Y_i = 1)}\right) = \beta_0 + \beta_j G_{ij} + \sum_{k=1}^{d} \gamma_k C_{ik}$

比值比（Odds Ratio）的估计值为 $OR = e^{\hat{\beta}_j}$ 。

其他遗传模型

除了加性模型外，GWAS 中还偶尔使用：

显性模型（Dominant Model）: 将基因型编码为 0（野生纯合）和 1（杂合 + 突变纯合）。检验的是"携带至少一个风险等位基因"的效应。
隐性模型（Recessive Model）: 将基因型编码为 0（野生纯合 + 杂合）和 1（突变纯合）。检验的是"必须携带两个风险等位基因"的效应。

加性模型是 GWAS 的默认选择，因为它假设效应与等位基因剂量成正比，统计功效最高且参数最少。

2. 统计挑战：多重检验与显著性

由于一次性检验了数百万个位点，根据显著性水平 $\alpha=0.05$ 计算，会产生数万个假阳性。

严苛的阈值

为了严控假阳性，GWAS 领域采用 Bonferroni 校正后的标准： $P < 5 \times 10^{-8}$ 这意味着只有那些信号极强的位点才能被认定为”全基因组显著”。

阈值的推导

Bonferroni 校正的原理是将显著性水平除以检验次数：

$P_{\text{threshold}} = \frac{\alpha}{M_{\text{eff}}}$

其中 $M_{\text{eff}}$ 是有效独立检验次数。由于人类基因组中存在广泛的连锁不平衡（LD），相邻 SNP 之间高度相关，因此 $M_{\text{eff}}$ 远小于实际的 SNP 数量（约 1000 万）。

经验估计表明，欧洲人群中大约有 $M_{\text{eff}} \approx 10^6$ 个独立的 LD 区块。因此：

$P_{\text{threshold}} = \frac{0.05}{10^6} = 5 \times 10^{-8}$

多重检验的其他方法

Bonferroni 校正: 最保守的方法。假设所有检验完全独立。简单但可能过度校正。
False Discovery Rate (FDR): 控制预期假阳性发现的比例（如 Benjamini--Hochberg 方法）。在基因表达分析中常用，但在 GWAS 中由于关注单个位点的因果推断，较少使用。
Permutation 检验: 通过随机打乱表型标签来经验性地确定阈值。计算成本极高，通常只在小规模研究中使用。

”建议显著性”阈值

除了全基因组显著性外，GWAS 文献中还常用”建议显著性（Suggestive Significance）“阈值：

$P < 1 \times 10^{-5}$

这一阈值大约对应每个基因组中期望产生 1 个假阳性的水平。达到建议显著性但未达到全基因组显著性的位点通常需要独立样本的重复验证。

3. 混杂因素：群体结构（Population Structure）

群体结构是 GWAS 的”幽灵”。如果病例组和对照组在祖源背景上不匹配（例如病例组更多来自欧洲北部，对照组来自南部），那么任何在两个亚群间频率不同的 SNP 都会产生虚假的关联信号。

校正策略

PCA 校正：利用主成分分析提取样本的前几个主成分（通常是 PC1-PC10），作为协变量放入回归模型中，吸收背景差异。
LMM (线性混合模型)：利用遗传亲缘关系矩阵（GRM）将样本间的亲缘关系建模为随机效应，比 PCA 更能处理近亲和精细的群体结构。

其他混杂因素

除了群体结构外，GWAS 中还需注意以下混杂：

批次效应（Batch Effects）：不同测序中心、不同基因分型芯片产生的系统性差异。
年龄和性别：许多表型（如血压、身高）与年龄、性别高度相关。
隐匿亲缘关系（Cryptic Relatedness）：样本间未知的血缘关系会导致统计检验的方差被低估。

这些混杂通常通过在回归模型中加入相应的协变量来解决。

4. 质量控制（Quality Control）

在进行统计关联分析之前，必须对基因型数据和样本进行严格的质量控制。

样本级质控

指标	阈值	说明
基因型检出率（Call Rate）	> 98%	个体缺失基因型的比例不能太高
杂合度（Heterozygosity）	$\pm 3$ SD	过高或过低可能暗示样本污染或近亲繁殖
性别不一致	排除	报告性别与 X 染色体基因型推断的性别不一致
隐匿亲缘	排除之一	PI_HAT > 0.2 的成对样本需移除其中一个

位点级质控

指标	阈值	说明
Hardy—Weinberg 平衡	$P > 10^{-6}$ （对照组）	对照组中显著偏离 HWE 的位点可能存在技术问题
基因型检出率	> 98%	位点缺失率过高会影响统计功效
次要等位基因频率（MAF）	> 1% 或 5%	稀有变异的统计功效不足，通常单独分析

5. 可视化与质量评估

曼哈顿图（Manhattan Plot）

GWAS 曼哈顿图：各染色体 SNP 的 -log10(p) 分布与全基因组显著性阈值 — GWAS 曼哈顿图：显著性信号以”块状”出现在特定染色体区域

横轴：染色体位置。
纵轴： $-\log_{10}(P)$ 值。
直觉：显著的位点会像曼哈顿的高楼大厦一样拔地而起。
解读：信号通常以”块状”出现（即多个相邻 SNP 同时显著），这是连锁不平衡的直接体现。显著信号所在的 LD 区块即为候选的致病区域。

QQ 图（Quantile-Quantile Plot）

作用：检查观测到的 P 值分布是否偏离零假设。
基因组膨胀因子（ $\lambda$ ）：如果 $\lambda > 1.05$ ，说明模型可能存在未校正的群体结构或系统性偏差。
解读方法：将观测到的 $-\log_{10}(P)$ 值与期望的均匀分布进行对比。大多数点应落在对角线上；如果整体偏离对角线上方，说明存在系统性膨胀。

QQ 图的 $\lambda_{GC}$ 计算

$\lambda_{GC} = \frac{\text{median}(\chi^2_{\text{observed}})}{0.4549}$

其中 0.4549 是自由度为 1 的卡方分布的中位数。在理想情况下 $\lambda_{GC} = 1$ 。轻度膨胀（ $\lambda_{GC} \approx 1.05$ ）在大型 GWAS 中较为常见，可能部分来源于真实的多基因信号。

6. Worked Example：一个简化的 GWAS

假设我们有 1000 个样本（500 病例 + 500 对照），对 10 个 SNP 进行关联检验。

数据

SNP	病例组 MAF	对照组 MAF	卡方值	P 值
rs001	0.10	0.12	0.89	0.35
rs002	0.35	0.15	40.0	$2.5 \times 10^{-10}$
rs003	0.28	0.30	0.32	0.57
rs004	0.05	0.04	0.55	0.46

分析

rs002 的 P 值为 $2.5 \times 10^{-10}$ ，远低于 $5 \times 10^{-8}$ 的全基因组显著性阈值，达到全基因组显著。
比值比 $OR = (0.35/0.65) / (0.15/0.85) \approx 3.05$ ，表明该位点携带者患病风险约为非携带者的 3 倍。
其余 SNP 均未达到显著性。

后续步骤

检查 rs002 所在区域的 LD 结构，确定候选致病变异的范围。
在独立队列中重复验证 rs002 的关联信号。
查阅功能基因组注释（如 eQTL、染色质可及性数据），评估候选基因的生物学合理性。

7. GWAS 结果的解读

从关联到因果：精细定位

GWAS 发现的显著 SNP 通常不是真正的致病变异，而是与致病变异处于高 LD 中的”标签 SNP”。精细定位（Fine-mapping）旨在从关联区域中识别最可能的因果变异。

统计精细定位：利用贝叶斯方法（如 CAVIAR、FINEMAP）计算每个 SNP 是因果变异的后验概率。
功能精细定位：整合 eQTL、ChIP-seq、ATAC-seq 等功能基因组数据，优先考虑位于调控元件中的变异。

遗传力解释

GWAS 发现的所有显著位点 collectively 能解释的表型变异比例称为”SNP 遗传力” ( $h^2_{\text{SNP}}$ )。对于大多数复杂性状，已发现的位点只能解释遗传力的一小部分——这就是著名的遗传力缺失（Missing Heritability） 问题。

GWAS：全基因组关联研究

1. 统计模型：寻找关联的刻度

基因型编码

回归分析

线性回归的数学形式

Logistic 回归的数学形式

其他遗传模型

2. 统计挑战：多重检验与显著性

严苛的阈值

阈值的推导

多重检验的其他方法

”建议显著性”阈值

3. 混杂因素：群体结构（Population Structure）

校正策略

其他混杂因素

4. 质量控制（Quality Control）

样本级质控

位点级质控

5. 可视化与质量评估

曼哈顿图（Manhattan Plot）

QQ 图（Quantile-Quantile Plot）

QQ 图的 $\lambda_{GC}$ 计算

6. Worked Example：一个简化的 GWAS

数据

分析

后续步骤

7. GWAS 结果的解读

从关联到因果：精细定位

遗传力解释

8. 常见误区

9. 与真实工具的连接

相关页面

GWAS：全基因组关联研究

1. 统计模型：寻找关联的刻度

基因型编码

回归分析

线性回归的数学形式

Logistic 回归的数学形式

其他遗传模型

2. 统计挑战：多重检验与显著性

严苛的阈值

阈值的推导

多重检验的其他方法

”建议显著性”阈值

3. 混杂因素：群体结构（Population Structure）

校正策略

其他混杂因素

4. 质量控制（Quality Control）

样本级质控

位点级质控

5. 可视化与质量评估

曼哈顿图（Manhattan Plot）

QQ 图（Quantile-Quantile Plot）

QQ 图的 λGC\lambda_{GC}λGC​ 计算

6. Worked Example：一个简化的 GWAS

数据

分析

后续步骤

7. GWAS 结果的解读

从关联到因果：精细定位

遗传力解释

8. 常见误区

9. 与真实工具的连接

相关页面

群体结构

连锁不平衡

变异过滤与质控

QQ 图的 $\lambda_{GC}$ 计算