NGS 流程总览

快速概览

高通量测序（NGS）技术概览：从 Illumina 短读长到 PacBio/Nanopore 长读长的技术特征与典型应用场景。

是什么

NGS（Next-Generation Sequencing）流程总览关注的是：从原始测序数据到最终可解释结果，这条分析链路通常经过哪些阶段、每一步依赖什么输入输出，以及错误会如何在流程中传播。

它不是某一个工具教程，而是理解整个二代测序分析生态的”地图页”。

为什么重要

很多初学者会直接从某个工具命令开始，但如果没有流程框架，就很难回答：

当前步骤的输入输出是什么；
这个步骤依赖哪些前提；
哪些参数会影响后续所有结果；
结果异常时应该回头检查哪一层。

因此，流程总览页的核心作用，是把”算法、工具、数据、解释”串成一个整体。

核心概念

1. 原始数据获取

这一阶段的重点是明确：

数据来自 DNA-seq、RNA-seq、ChIP-seq 还是其他实验；
数据格式是什么（如 FASTQ）；
是否有配对末端（paired-end）信息；
使用了哪个参考版本和注释版本。

如果这里的元数据不清楚，后面几乎所有分析都可能出现偏差。

2. 质量控制（QC）

QC 的目标不是”把所有数据都删掉”，而是回答：数据能不能进入下一阶段，以及哪些问题需要先处理。

常见问题包括：

低质量碱基；
接头污染；
GC 偏好异常；
文库复杂度不足；
read 长度分布异常。

3. 比对或组装

这是流程中的核心岔路口：

如果有高质量参考序列，通常优先做 比对（mapping/alignment）；
如果参考缺失或目标是重建新序列，则可能做 组装（assembly）。

对应算法模块分别包括：

比对：字符串搜索、索引结构、动态规划；
组装：k-mer、图模型、路径重建、共识计算。

4. 定量 / 变异检测 / 注释

完成定位后，不同实验会进入不同下游路径：

RNA-seq：表达定量、差异表达、剪接分析；
DNA-seq：SNP / InDel / SV 检测；
宏基因组：物种分类、丰度估计、功能注释；
组装流程：contig/scaffold 评估与注释。

5. 结果解释与可视化

最终结果并不只是一个表格或几个 VCF 条目。我们通常还需要：

结合数据库做注释；
做统计比较；
进行富集分析或通路分析；
用图形展示结果；
把技术指标和生物学问题重新对应起来。

示例

以最常见的 RNA-seq 为例，一个简化流程可能是：

FASTQ -> QC -> mapping / pseudo-alignment -> quantification -> differential analysis -> biological interpretation

如果最终差异表达结果异常，排查并不一定要从最后一步开始，也可能要回到：

样本设计是否合理；
质控是否充分；
参考版本和注释版本是否匹配；
mapping 是否稳定。

这也是为什么流程总览很重要：它帮助你理解”错误会在哪里累积”。

与真实工具或流程的连接

可以把整个流程和算法模块这样对应：

流程步骤	典型算法模块
质控与过滤	统计分布、错误建模
比对	字符串搜索、动态规划、索引结构
组装	图模型、路径问题、共识
定量与检测	概率统计、优化、归一化
注释与解释	数据库映射、富集分析

真正使用具体工具时，最重要的不是记住某个命令，而是理解工具在流程中的位置、输入输出和它对后续步骤的影响。