长读长测序

快速概览

长读长测序（Long-read sequencing）产生数千至数百万碱基长度的连续序列，使研究者能够跨越重复区域、直接观测结构变异，并获得完整的转录本和单倍型信息。

PacBio 与 Oxford Nanopore 是两大主流平台，测序原理和误差特征各异
长读长组装采用 OLC（Overlap-Layout-Consensus）策略，配合专门的重叠检测算法
Consensus 算法通过多序列信息整合显著降低测序错误率
长读长可直接跨越结构变异断点，是 SV 检测的重要技术路线

核心问题

基因组学研究长期以来面临一个基本限制：如何组装和解析那些超过测序 read 长度的重复区域？

传统短读长（Illumina）技术产生的 reads 通常只有 100–300 bp。当基因组中存在长度超过 read 长度的重复序列时，组装图（de Bruijn 图或重叠图）会出现无法解析的分叉，导致：

组装碎片化（contig N50 低）
重复区域塌陷或错误连接
结构变异难以准确检测
单倍型信息丢失

长读长测序将单条 read 的长度提升到数 kb 乃至数十 kb甚至上百 kb，从根本上改变了这一局面。本章将系统介绍：

测序平台：PacBio SMRT 与 Oxford Nanopore 的物理原理与误差模式
组装算法：从重叠检测到共识生成的完整流程
结构变异检测：利用长跨度 reads 直接观测基因组重排

为什么重要

长读长技术的重要性体现在以下几个关键场景：

重复区域解析 人类基因组中约 50% 为重复序列，包括着丝粒、端粒和转座子。短读长无法唯一比对到这些区域，而长读长可直接跨越重复单元。

结构变异检测 结构变异（SV）通常指 >50 bp 的基因组变异，包括插入、缺失、倒位、重复和易位。SV 常常大于短读长长度，长读长更容易直接观测断点。

复杂转录本与单倍型 选择性剪接产生多种转录本亚型，长读长可捕获完整 mRNA 序列。同时，长跨度信息使得区分同源染色体（phasing）成为可能。

临床应用 大型缺失、插入和重排与多种遗传疾病相关，长读长正成为临床诊断的重要工具。

与其他板块的连接

组装理论基础见组装与图算法；
小变异与大变异的区别见 small variants vs SV；
临床场景下的进一步解释见临床变异解释。

子主题导航

PacBio 与 Nanopore

理解两类平台的测序原理、误差模式与适用场景。

进入子主题

长读长组装

从 overlap 到 contig，再到 polishing 和评估。

进入子主题

重叠检测算法

Minimap 的 minimizer 采样和 MHAP 的 MinHash 算法。

进入子主题

Consensus 算法

Racon 的 POA 动态规划和 Medaka 的神经网络模型。

进入子主题

Minimap2 比对算法

Seed-chain-align 流程与带状动态规划实现。

进入子主题

Basecalling 算法

Nanopore 信号处理的 HMM 模型与神经网络架构。

进入子主题

结构变异检测

利用 split-read、coverage 和断点证据检测大型插入、缺失和重排。

进入子主题

长读长测序

核心问题

为什么重要

推荐阅读顺序

与其他板块的连接

子主题导航

PacBio 与 Nanopore

长读长组装

重叠检测算法

Consensus 算法

Minimap2 比对算法

Basecalling 算法

结构变异检测