测序 Reads、覆盖度与错误模型
在生物信息学中,我们处理的不是完整的基因组,而是由测序仪随机产生的碎片化读段(Reads)。覆盖度(Coverage)不仅是数据量的衡量指标,更是后续统计推断(如变异检测、组装)的信心来源。
- 掌握 Reads 的基本属性:长度、质量值(Phred Score)与方向
- 理解覆盖度(Coverage)与深度(Depth)的数学定义
- 理解 Lander-Waterman 公式:预测基因组覆盖盲区的直觉
- 认识测序错误模型(错配、Indel、偏好性)对算法的影响
1. Reads:基因组的局部观测
Section titled “1. Reads:基因组的局部观测”测序仪通过物理或化学手段将长 DNA 分子打断并读取出的短片段称为 Reads(读段)。Reads 是所有下游分析(比对、组装、变异检测)的原始输入。
Read 的基本属性
Section titled “Read 的基本属性”- 读长(Read Length)
- 单条 Read 包含的碱基数量。短读长(Short Reads)通常 100-300 bp;长读长(Long Reads)可达数万 bp。
- 测序方向(Strand Orientation)
- Read 来自正义链(Forward)还是反义链(Reverse)。在双端测序(Paired-End Sequencing)中,两个 Read 分别来自同一 DNA 片段的两端。
- 插入片段(Insert Size)
- 双端测序中,两个 Read 之间的 DNA 片段长度(含 Read 本身)。插入片段的分布对于结构变异检测和基因组组装至关重要。
- Phred 质量值
- 每个碱基的测序错误概率的对数得分:$Q = -10 log_{10} P_{error}$。$Q=30$ 表示错误率约 0.1%,$Q=20$ 表示错误率约 1%。
短读长与长读长的权衡
Section titled “短读长与长读长的权衡”| 维度 | 短读长(Short Reads) | 长读长(Long Reads) |
|---|---|---|
| **典型平台** | Illumina (NovaSeq, HiSeq) | PacBio HiFi, Oxford Nanopore |
| **读长** | 100-300 bp | 10-100+ kb |
| **单碱基准确率** | ~99.9% (Q30) | HiFi ~99.9%;ONT ~95-97% (Q13-17) |
| **错误模式** | 以替换(Substitution)为主 | 以插入/缺失(Indel)为主 |
| **优势** | 低错误率、高通量、低成本 | 长片段信息、跨越重复区域 |
| **局限** | 难以组装大片段重复 | 较高错误率、较高成本 |
2. 覆盖度(Coverage) 与深度(Depth)
Section titled “2. 覆盖度(Coverage) 与深度(Depth)”这两个词在实践中常混用,但有细微差别。
- 深度(Depth):基因组上某个特定碱基被多少条 Reads 覆盖。深度是一个局部属性,因基因组位置而异。
- 覆盖度(Coverage):通常指整个基因组的平均覆盖深度,有时也指被至少一条 Read 覆盖的基因组比例。
其中:
- :总 Reads 数量
- :平均 Read 长度
- :基因组的总长度
示例:人类基因组约 bp。如果使用 150 bp 的 Reads,要达到 覆盖度,需要的总数据量为:
对应的 Reads 数量为 (6 亿条 Reads)。
覆盖深度的分布
Section titled “覆盖深度的分布”在理想化的随机测序模型下,基因组上每个碱基被覆盖的次数服从泊松分布(Poisson Distribution):
其中 是平均覆盖深度, 是特定碱基的实际覆盖深度。
实际分布偏离泊松假设的原因:
- GC 偏好性:极高或极低 GC 含量的区域覆盖不均匀。
- PCR 扩增偏差:文库构建过程中的 PCR 扩增会过度放大某些片段。
- 重复序列:Reads 可能被错误地比对到重复序列的多个位置,导致局部深度异常偏高。
- mappability:低唯一性区域(Low Mappability Regions)的 Read 会被比对器丢弃,导致局部深度偏低。
3. Lander-Waterman 公式:预测”未见”
Section titled “3. Lander-Waterman 公式:预测”未见””即便平均覆盖度 ,基因组中仍然会有一些区域由于随机性而没有被任何 Read 覆盖。
Lander-Waterman 统计模型(1988)告诉我们:
- 覆盖盲区的比例(至少被一条 Read 覆盖的概率的补):
- 至少被 条 Reads 覆盖的概率:
直觉与关键数值
Section titled “直觉与关键数值”| 平均覆盖度 | 未覆盖比例 | 至少 覆盖 | 至少 覆盖 |
|---|---|---|---|
| 36.8% | 63.2% | 8.0% | |
| 0.67% | 99.3% | 74.2% | |
| 0.0045% | 99.995% | 98.1% | |
关键直觉:如果 (1 倍覆盖),大约有 37% 的基因组仍然是未知的。要达到几乎完全覆盖(如 99%),平均深度通常需要提高到 5-10 倍以上。
Lander-Waterman 公式在实践中的意义
Section titled “Lander-Waterman 公式在实践中的意义”- 基因组组装:组装算法需要足够的覆盖度来跨越重复序列和低复杂度区域。通常 de novo 组装建议 覆盖度。
- 变异检测:要可靠地区分杂合变异(理论覆盖度为 )和测序错误,通常需要 。
- 宏基因组分析:由于样本中物种丰度差异巨大,低丰度物种的覆盖度可能远低于平均水平,需要更深的测序才能检测到。
4. 测序错误模型
Section titled “4. 测序错误模型”Reads 并不是真实序列的完美复制。理解错误模型对于设计鲁棒的生物信息学算法至关重要。
- 替换(Substitution / Mismatch):一个碱基被错误地读取为另一个碱基。这是 Illumina 短读长测序中最主要的错误类型。
- 插入/缺失(Indel):额外插入或遗漏碱基。这是 Oxford Nanopore 长读长测序中最主要的错误类型,容易产生假性的移码(Frameshift)。
- GC 偏好性(GC Bias):极高或极低 GC 含量的区域往往难以被测序仪均匀覆盖,导致覆盖深度出现系统性偏差。
- 截断与质量下降(Quality Drop-off):Read 的 3’ 端通常质量值较低,因为测序化学反应随着循环次数增加而衰减。
Phred 质量值
Section titled “Phred 质量值”Phred 质量值(Phred Quality Score)是量化每个碱基测序可靠性的标准指标:
| Q 值 | 错误率 | 含义 |
|---|---|---|
| Q10 | 10% | 每 10 个碱基约 1 个错误 |
| Q20 | 1% | 每 100 个碱基约 1 个错误 |
| Q30 | 0.1% | 每 1000 个碱基约 1 个错误 |
| Q40 | 0.01% | 每 10000 个碱基约 1 个错误 |
不同的下游任务需要不同的错误处理策略:
| 下游任务 | 错误处理策略 |
|---|---|
| 变异检测 | 利用 Phred 质量值加权计算碱基质量,过滤低信度的差异。GATK 使用贝叶斯模型综合质量和覆盖度来判断变异真实性。 |
| 基因组组装 | 利用多次覆盖产生的”共识”(Consensus)来校正单条 Read 的错误。PacBio 的 CCS(Circular Consensus Sequencing)技术通过多次环化测序同一分子来大幅降低错误率。 |
| Read 比对 | 允许一定数量的错配(根据质量值动态调整罚分),避免将真实变异误判为比对错误。 |
| de Bruijn 图组装 | 低频 k-mer 通常对应测序错误,可以通过设置 k-mer 频率阈值进行过滤。 |
5. 双端测序与插入片段
Section titled “5. 双端测序与插入片段”什么是双端测序
Section titled “什么是双端测序”在双端测序(Paired-End Sequencing, PE)中,测序仪从同一个 DNA 片段的两端分别读取序列,产生一对 Reads(Read 1 和 Read 2)。这两个 Read 之间的 DNA 片段称为插入片段(Insert)。
插入片段的信息价值
Section titled “插入片段的信息价值”插入片段的长度和方向信息在生物信息学分析中有重要价值:
- 结构变异检测:如果 Read 1 和 Read 2 比对到参考基因组上的距离或方向异常(如距离过远、方向相反),则提示可能存在插入、缺失、倒位或易位等结构变异。
- 基因组组装:双端信息可以跨越重复区域,帮助确定 Contig 之间的正确相对位置和方向(Scaffolding)。
- 比对质量提升:即使单条 Read 的比对位置不确定,另一端的比对信息可以帮助消歧。
插入片段的分布
Section titled “插入片段的分布”插入片段的长度通常服从近似正态分布,但实际分布可能因为文库制备的偏差而出现偏移。理解插入片段的分布对于设置比对参数和变异检测阈值至关重要。
- 变异检测:需要 以上的均匀覆盖度,以及高质量的 Phred 分数来区分真实变异与测序错误。覆盖度不均匀的区域(如低 mappability 区域)容易产生假阳性或假阴性。
- 基因组组装:需要足够高的覆盖度来保证 k-mer 的连通性。对于杂合基因组,有效覆盖度减半,需要更高的原始测序深度。
- RNA-seq:覆盖度分布与基因表达水平直接相关。高表达基因的覆盖度可达数千倍,而低表达基因可能只有几条 Read。