跳转到内容

测序 Reads、覆盖度与错误模型

快速概览

在生物信息学中,我们处理的不是完整的基因组,而是由测序仪随机产生的碎片化读段(Reads)。覆盖度(Coverage)不仅是数据量的衡量指标,更是后续统计推断(如变异检测、组装)的信心来源。

  • 掌握 Reads 的基本属性:长度、质量值(Phred Score)与方向
  • 理解覆盖度(Coverage)与深度(Depth)的数学定义
  • 理解 Lander-Waterman 公式:预测基因组覆盖盲区的直觉
  • 认识测序错误模型(错配、Indel、偏好性)对算法的影响
所属板块 基础与数学

对象层、坐标系统、coverage 与概率图模型的共同语言。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

边合成边测序(SBS)原理:可逆终止荧光核苷酸的循环读取
边合成边测序(Sequencing-by-Synthesis, SBS)的基本原理

测序仪通过物理或化学手段将长 DNA 分子打断并读取出的短片段称为 Reads(读段)。Reads 是所有下游分析(比对、组装、变异检测)的原始输入。

读长(Read Length)
单条 Read 包含的碱基数量。短读长(Short Reads)通常 100-300 bp;长读长(Long Reads)可达数万 bp。
测序方向(Strand Orientation)
Read 来自正义链(Forward)还是反义链(Reverse)。在双端测序(Paired-End Sequencing)中,两个 Read 分别来自同一 DNA 片段的两端。
插入片段(Insert Size)
双端测序中,两个 Read 之间的 DNA 片段长度(含 Read 本身)。插入片段的分布对于结构变异检测和基因组组装至关重要。
Phred 质量值
每个碱基的测序错误概率的对数得分:$Q = -10 log_{10} P_{error}$。$Q=30$ 表示错误率约 0.1%,$Q=20$ 表示错误率约 1%。
维度 短读长(Short Reads) 长读长(Long Reads)
**典型平台** Illumina (NovaSeq, HiSeq) PacBio HiFi, Oxford Nanopore
**读长** 100-300 bp 10-100+ kb
**单碱基准确率** ~99.9% (Q30) HiFi ~99.9%;ONT ~95-97% (Q13-17)
**错误模式** 以替换(Substitution)为主 以插入/缺失(Indel)为主
**优势** 低错误率、高通量、低成本 长片段信息、跨越重复区域
**局限** 难以组装大片段重复 较高错误率、较高成本

2. 覆盖度(Coverage) 与深度(Depth)

Section titled “2. 覆盖度(Coverage) 与深度(Depth)”

这两个词在实践中常混用,但有细微差别。

  • 深度(Depth):基因组上某个特定碱基被多少条 Reads 覆盖。深度是一个局部属性,因基因组位置而异。
  • 覆盖度(Coverage):通常指整个基因组的平均覆盖深度,有时也指被至少一条 Read 覆盖的基因组比例。

C=NLGC = \frac{N \cdot L}{G}

其中:

  • NN:总 Reads 数量
  • LL:平均 Read 长度
  • GG:基因组的总长度

示例:人类基因组约 G=3×109G = 3 \times 10^9 bp。如果使用 150 bp 的 Reads,要达到 30×30\times 覆盖度,需要的总数据量为:

N×L=C×G=30×3×109=9×1010 bp90 GbN \times L = C \times G = 30 \times 3 \times 10^9 = 9 \times 10^{10} \text{ bp} \approx 90 \text{ Gb}

对应的 Reads 数量为 N=9×1010/150=6×108N = 9 \times 10^{10} / 150 = 6 \times 10^8(6 亿条 Reads)。

在理想化的随机测序模型下,基因组上每个碱基被覆盖的次数服从泊松分布(Poisson Distribution)

P(k)=CkeCk!P(k) = \frac{C^k \cdot e^{-C}}{k!}

其中 CC 是平均覆盖深度,kk 是特定碱基的实际覆盖深度。

实际分布偏离泊松假设的原因

  • GC 偏好性:极高或极低 GC 含量的区域覆盖不均匀。
  • PCR 扩增偏差:文库构建过程中的 PCR 扩增会过度放大某些片段。
  • 重复序列:Reads 可能被错误地比对到重复序列的多个位置,导致局部深度异常偏高。
  • mappability:低唯一性区域(Low Mappability Regions)的 Read 会被比对器丢弃,导致局部深度偏低。

3. Lander-Waterman 公式:预测”未见”

Section titled “3. Lander-Waterman 公式:预测”未见””

即便平均覆盖度 C=10×C = 10\times,基因组中仍然会有一些区域由于随机性而没有被任何 Read 覆盖。

Lander-Waterman 统计模型(1988)告诉我们:

  • 覆盖盲区的比例(至少被一条 Read 覆盖的概率的补):

P(uncovered)=eCP(\text{uncovered}) = e^{-C}

  • 至少被 kk 条 Reads 覆盖的概率

P(depthk)=1i=0k1CieCi!P(\text{depth} \geq k) = 1 - \sum_{i=0}^{k-1} \frac{C^i \cdot e^{-C}}{i!}

平均覆盖度 CC未覆盖比例 eCe^{-C}至少 1×1\times 覆盖至少 3×3\times 覆盖
1×1\times36.8%63.2%8.0%
5×5\times0.67%99.3%74.2%
10×10\times0.0045%99.995%98.1%
30×30\times0\approx 0100%\approx 100\%100%\approx 100\%

关键直觉:如果 C=1C=1(1 倍覆盖),大约有 37% 的基因组仍然是未知的。要达到几乎完全覆盖(如 99%),平均深度通常需要提高到 5-10 倍以上。

Lander-Waterman 公式在实践中的意义

Section titled “Lander-Waterman 公式在实践中的意义”
  • 基因组组装:组装算法需要足够的覆盖度来跨越重复序列和低复杂度区域。通常 de novo 组装建议 50100×50-100\times 覆盖度。
  • 变异检测:要可靠地区分杂合变异(理论覆盖度为 C/2C/2)和测序错误,通常需要 C30×C \geq 30\times
  • 宏基因组分析:由于样本中物种丰度差异巨大,低丰度物种的覆盖度可能远低于平均水平,需要更深的测序才能检测到。

Reads 并不是真实序列的完美复制。理解错误模型对于设计鲁棒的生物信息学算法至关重要。

  1. 替换(Substitution / Mismatch):一个碱基被错误地读取为另一个碱基。这是 Illumina 短读长测序中最主要的错误类型。
  2. 插入/缺失(Indel):额外插入或遗漏碱基。这是 Oxford Nanopore 长读长测序中最主要的错误类型,容易产生假性的移码(Frameshift)。
  3. GC 偏好性(GC Bias):极高或极低 GC 含量的区域往往难以被测序仪均匀覆盖,导致覆盖深度出现系统性偏差。
  4. 截断与质量下降(Quality Drop-off):Read 的 3’ 端通常质量值较低,因为测序化学反应随着循环次数增加而衰减。

Phred 质量值(Phred Quality Score)是量化每个碱基测序可靠性的标准指标:

Q=10log10PerrorQ = -10 \log_{10} P_{error}

Q 值错误率 PerrorP_{error}含义
Q1010%每 10 个碱基约 1 个错误
Q201%每 100 个碱基约 1 个错误
Q300.1%每 1000 个碱基约 1 个错误
Q400.01%每 10000 个碱基约 1 个错误

不同的下游任务需要不同的错误处理策略:

下游任务错误处理策略
变异检测利用 Phred 质量值加权计算碱基质量,过滤低信度的差异。GATK 使用贝叶斯模型综合质量和覆盖度来判断变异真实性。
基因组组装利用多次覆盖产生的”共识”(Consensus)来校正单条 Read 的错误。PacBio 的 CCS(Circular Consensus Sequencing)技术通过多次环化测序同一分子来大幅降低错误率。
Read 比对允许一定数量的错配(根据质量值动态调整罚分),避免将真实变异误判为比对错误。
de Bruijn 图组装低频 k-mer 通常对应测序错误,可以通过设置 k-mer 频率阈值进行过滤。

在双端测序(Paired-End Sequencing, PE)中,测序仪从同一个 DNA 片段的两端分别读取序列,产生一对 Reads(Read 1 和 Read 2)。这两个 Read 之间的 DNA 片段称为插入片段(Insert)

插入片段的长度和方向信息在生物信息学分析中有重要价值:

  • 结构变异检测:如果 Read 1 和 Read 2 比对到参考基因组上的距离或方向异常(如距离过远、方向相反),则提示可能存在插入、缺失、倒位或易位等结构变异。
  • 基因组组装:双端信息可以跨越重复区域,帮助确定 Contig 之间的正确相对位置和方向(Scaffolding)。
  • 比对质量提升:即使单条 Read 的比对位置不确定,另一端的比对信息可以帮助消歧。

插入片段的长度通常服从近似正态分布,但实际分布可能因为文库制备的偏差而出现偏移。理解插入片段的分布对于设置比对参数和变异检测阈值至关重要。

  • 变异检测:需要 30×30\times 以上的均匀覆盖度,以及高质量的 Phred 分数来区分真实变异与测序错误。覆盖度不均匀的区域(如低 mappability 区域)容易产生假阳性或假阴性。
  • 基因组组装:需要足够高的覆盖度来保证 k-mer 的连通性。对于杂合基因组,有效覆盖度减半,需要更高的原始测序深度。
  • RNA-seq:覆盖度分布与基因表达水平直接相关。高表达基因的覆盖度可达数千倍,而低表达基因可能只有几条 Read。