测序 Reads、覆盖度与错误模型

快速概览

在生物信息学中，我们处理的不是完整的基因组，而是由测序仪随机产生的碎片化读段（Reads）。覆盖度（Coverage）不仅是数据量的衡量指标，更是后续统计推断（如变异检测、组装）的信心来源。

掌握 Reads 的基本属性：长度、质量值（Phred Score）与方向
理解覆盖度（Coverage）与深度（Depth）的数学定义
理解 Lander-Waterman 公式：预测基因组覆盖盲区的直觉
认识测序错误模型（错配、Indel、偏好性）对算法的影响

1. Reads：基因组的局部观测

边合成边测序（SBS）原理：可逆终止荧光核苷酸的循环读取 — 边合成边测序（Sequencing-by-Synthesis, SBS）的基本原理

测序仪通过物理或化学手段将长 DNA 分子打断并读取出的短片段称为 Reads（读段）。Reads 是所有下游分析（比对、组装、变异检测）的原始输入。

Read 的基本属性

读长（Read Length）: 单条 Read 包含的碱基数量。短读长（Short Reads）通常 100-300 bp；长读长（Long Reads）可达数万 bp。
测序方向（Strand Orientation）: Read 来自正义链（Forward）还是反义链（Reverse）。在双端测序（Paired-End Sequencing）中，两个 Read 分别来自同一 DNA 片段的两端。
插入片段（Insert Size）: 双端测序中，两个 Read 之间的 DNA 片段长度（含 Read 本身）。插入片段的分布对于结构变异检测和基因组组装至关重要。
Phred 质量值: 每个碱基的测序错误概率的对数得分：$Q = -10 log_{10} P_{error}$。$Q=30$ 表示错误率约 0.1%，$Q=20$ 表示错误率约 1%。

短读长与长读长的权衡

维度	短读长（Short Reads）	长读长（Long Reads）
典型平台	Illumina (NovaSeq, HiSeq)	PacBio HiFi, Oxford Nanopore
读长	100-300 bp	10-100+ kb
单碱基准确率	~99.9% (Q30)	HiFi ~99.9%；ONT ~95-97% (Q13-17)
错误模式	以替换（Substitution）为主	以插入/缺失（Indel）为主
优势	低错误率、高通量、低成本	长片段信息、跨越重复区域
局限	难以组装大片段重复	较高错误率、较高成本

2. 覆盖度（Coverage）与深度（Depth）

这两个词在实践中常混用，但有细微差别。

定义

深度（Depth）：基因组上某个特定碱基被多少条 Reads 覆盖。深度是一个局部属性，因基因组位置而异。
覆盖度（Coverage）：通常指整个基因组的平均覆盖深度，有时也指被至少一条 Read 覆盖的基因组比例。

计算公式

$C = \frac{N \cdot L}{G}$

其中：

$N$ ：总 Reads 数量
$L$ ：平均 Read 长度
$G$ ：基因组的总长度

示例：人类基因组约 $G = 3 \times 10^9$ bp。如果使用 150 bp 的 Reads，要达到 $30\times$ 覆盖度，需要的总数据量为：

$N \times L = C \times G = 30 \times 3 \times 10^9 = 9 \times 10^{10} \text{ bp} \approx 90 \text{ Gb}$

对应的 Reads 数量为 $N = 9 \times 10^{10} / 150 = 6 \times 10^8$ （6 亿条 Reads）。

覆盖深度的分布

在理想化的随机测序模型下，基因组上每个碱基被覆盖的次数服从泊松分布（Poisson Distribution）：

$P(k) = \frac{C^k \cdot e^{-C}}{k!}$

其中 $C$ 是平均覆盖深度， $k$ 是特定碱基的实际覆盖深度。

实际分布偏离泊松假设的原因：

GC 偏好性：极高或极低 GC 含量的区域覆盖不均匀。
PCR 扩增偏差：文库构建过程中的 PCR 扩增会过度放大某些片段。
重复序列：Reads 可能被错误地比对到重复序列的多个位置，导致局部深度异常偏高。
mappability：低唯一性区域（Low Mappability Regions）的 Read 会被比对器丢弃，导致局部深度偏低。

3. Lander-Waterman 公式：预测”未见”

即便平均覆盖度 $C = 10\times$ ，基因组中仍然会有一些区域由于随机性而没有被任何 Read 覆盖。

核心公式

Lander-Waterman 统计模型（1988）告诉我们：

覆盖盲区的比例（至少被一条 Read 覆盖的概率的补）：

$P(\text{uncovered}) = e^{-C}$

至少被 $k$ 条 Reads 覆盖的概率：

$P(\text{depth} \geq k) = 1 - \sum_{i=0}^{k-1} \frac{C^i \cdot e^{-C}}{i!}$

直觉与关键数值

平均覆盖度 $C$	未覆盖比例 $e^{-C}$	至少 $1\times$ 覆盖	至少 $3\times$ 覆盖
$1\times$	36.8%	63.2%	8.0%
$5\times$	0.67%	99.3%	74.2%
$10\times$	0.0045%	99.995%	98.1%
$30\times$	$\approx 0$	$\approx 100\%$	$\approx 100\%$

关键直觉：如果 $C=1$ （1 倍覆盖），大约有 37% 的基因组仍然是未知的。要达到几乎完全覆盖（如 99%），平均深度通常需要提高到 5-10 倍以上。

Lander-Waterman 公式在实践中的意义

基因组组装：组装算法需要足够的覆盖度来跨越重复序列和低复杂度区域。通常 de novo 组装建议 $50-100\times$ 覆盖度。
变异检测：要可靠地区分杂合变异（理论覆盖度为 $C/2$ ）和测序错误，通常需要 $C \geq 30\times$ 。
宏基因组分析：由于样本中物种丰度差异巨大，低丰度物种的覆盖度可能远低于平均水平，需要更深的测序才能检测到。

4. 测序错误模型

Reads 并不是真实序列的完美复制。理解错误模型对于设计鲁棒的生物信息学算法至关重要。

错误类型

替换（Substitution / Mismatch）：一个碱基被错误地读取为另一个碱基。这是 Illumina 短读长测序中最主要的错误类型。
插入/缺失（Indel）：额外插入或遗漏碱基。这是 Oxford Nanopore 长读长测序中最主要的错误类型，容易产生假性的移码（Frameshift）。
GC 偏好性（GC Bias）：极高或极低 GC 含量的区域往往难以被测序仪均匀覆盖，导致覆盖深度出现系统性偏差。
截断与质量下降（Quality Drop-off）：Read 的 3’ 端通常质量值较低，因为测序化学反应随着循环次数增加而衰减。

Phred 质量值

Phred 质量值（Phred Quality Score）是量化每个碱基测序可靠性的标准指标：

$Q = -10 \log_{10} P_{error}$

Q 值	错误率 $P_{error}$	含义
Q10	10%	每 10 个碱基约 1 个错误
Q20	1%	每 100 个碱基约 1 个错误
Q30	0.1%	每 1000 个碱基约 1 个错误
Q40	0.01%	每 10000 个碱基约 1 个错误

算法对策

不同的下游任务需要不同的错误处理策略：

下游任务	错误处理策略
变异检测	利用 Phred 质量值加权计算碱基质量，过滤低信度的差异。GATK 使用贝叶斯模型综合质量和覆盖度来判断变异真实性。
基因组组装	利用多次覆盖产生的”共识”（Consensus）来校正单条 Read 的错误。PacBio 的 CCS（Circular Consensus Sequencing）技术通过多次环化测序同一分子来大幅降低错误率。
Read 比对	允许一定数量的错配（根据质量值动态调整罚分），避免将真实变异误判为比对错误。
de Bruijn 图组装	低频 k-mer 通常对应测序错误，可以通过设置 k-mer 频率阈值进行过滤。

5. 双端测序与插入片段

什么是双端测序

在双端测序（Paired-End Sequencing, PE）中，测序仪从同一个 DNA 片段的两端分别读取序列，产生一对 Reads（Read 1 和 Read 2）。这两个 Read 之间的 DNA 片段称为插入片段（Insert）。

插入片段的信息价值

插入片段的长度和方向信息在生物信息学分析中有重要价值：

结构变异检测：如果 Read 1 和 Read 2 比对到参考基因组上的距离或方向异常（如距离过远、方向相反），则提示可能存在插入、缺失、倒位或易位等结构变异。
基因组组装：双端信息可以跨越重复区域，帮助确定 Contig 之间的正确相对位置和方向（Scaffolding）。
比对质量提升：即使单条 Read 的比对位置不确定，另一端的比对信息可以帮助消歧。

插入片段的分布

插入片段的长度通常服从近似正态分布，但实际分布可能因为文库制备的偏差而出现偏移。理解插入片段的分布对于设置比对参数和变异检测阈值至关重要。

应用场景

变异检测：需要 $30\times$ 以上的均匀覆盖度，以及高质量的 Phred 分数来区分真实变异与测序错误。覆盖度不均匀的区域（如低 mappability 区域）容易产生假阳性或假阴性。
基因组组装：需要足够高的覆盖度来保证 k-mer 的连通性。对于杂合基因组，有效覆盖度减半，需要更高的原始测序深度。
RNA-seq：覆盖度分布与基因表达水平直接相关。高表达基因的覆盖度可达数千倍，而低表达基因可能只有几条 Read。

常见误区

误区一：将"覆盖度"等同于"数据质量"。覆盖度是数据量的指标，不直接反映数据质量。100 倍覆盖度的低质量数据可能不如 30 倍覆盖度的高质量数据有用。
误区二：忽视覆盖度的分布不均匀性。Lander-Waterman 公式假设覆盖度服从泊松分布，但实际数据由于 GC 偏好性和其他偏差，分布远不如理论均匀。某些基因组区域可能存在"覆盖盲区"。
误区三：忽略 Read 方向信息。单端测序丢失了 DNA 片段的方向和距离信息，这些信息对于结构变异检测和基因组组装的 Scaffolding 至关重要。
误区四：混淆"碱基质量"与"比对质量"。碱基质量（Base Quality, BQ）衡量的是测序仪读取该碱基的可靠性；比对质量（Mapping Quality, MapQ）衡量的是将这条 Read 比对到当前位置的可信度。两者是独立的指标。