NGS 流程总览
高通量测序(NGS)技术概览:从 Illumina 短读长到 PacBio/Nanopore 长读长的技术特征与典型应用场景。
NGS(Next-Generation Sequencing)流程总览关注的是:从原始测序数据到最终可解释结果,这条分析链路通常经过哪些阶段、每一步依赖什么输入输出,以及错误会如何在流程中传播。
它不是某一个工具教程,而是理解整个二代测序分析生态的”地图页”。
很多初学者会直接从某个工具命令开始,但如果没有流程框架,就很难回答:
- 当前步骤的输入输出是什么;
- 这个步骤依赖哪些前提;
- 哪些参数会影响后续所有结果;
- 结果异常时应该回头检查哪一层。
因此,流程总览页的核心作用,是把”算法、工具、数据、解释”串成一个整体。
1. 原始数据获取
Section titled “1. 原始数据获取”这一阶段的重点是明确:
- 数据来自 DNA-seq、RNA-seq、ChIP-seq 还是其他实验;
- 数据格式是什么(如 FASTQ);
- 是否有配对末端(paired-end)信息;
- 使用了哪个参考版本和注释版本。
如果这里的元数据不清楚,后面几乎所有分析都可能出现偏差。
2. 质量控制(QC)
Section titled “2. 质量控制(QC)”QC 的目标不是”把所有数据都删掉”,而是回答:数据能不能进入下一阶段,以及哪些问题需要先处理。
常见问题包括:
- 低质量碱基;
- 接头污染;
- GC 偏好异常;
- 文库复杂度不足;
- read 长度分布异常。
3. 比对或组装
Section titled “3. 比对或组装”这是流程中的核心岔路口:
- 如果有高质量参考序列,通常优先做 比对(mapping/alignment);
- 如果参考缺失或目标是重建新序列,则可能做 组装(assembly)。
对应算法模块分别包括:
- 比对:字符串搜索、索引结构、动态规划;
- 组装:k-mer、图模型、路径重建、共识计算。
4. 定量 / 变异检测 / 注释
Section titled “4. 定量 / 变异检测 / 注释”完成定位后,不同实验会进入不同下游路径:
- RNA-seq:表达定量、差异表达、剪接分析;
- DNA-seq:SNP / InDel / SV 检测;
- 宏基因组:物种分类、丰度估计、功能注释;
- 组装流程:contig/scaffold 评估与注释。
5. 结果解释与可视化
Section titled “5. 结果解释与可视化”最终结果并不只是一个表格或几个 VCF 条目。我们通常还需要:
- 结合数据库做注释;
- 做统计比较;
- 进行富集分析或通路分析;
- 用图形展示结果;
- 把技术指标和生物学问题重新对应起来。
以最常见的 RNA-seq 为例,一个简化流程可能是:
FASTQ -> QC -> mapping / pseudo-alignment -> quantification -> differential analysis -> biological interpretation如果最终差异表达结果异常,排查并不一定要从最后一步开始,也可能要回到:
- 样本设计是否合理;
- 质控是否充分;
- 参考版本和注释版本是否匹配;
- mapping 是否稳定。
这也是为什么流程总览很重要:它帮助你理解”错误会在哪里累积”。
与真实工具或流程的连接
Section titled “与真实工具或流程的连接”可以把整个流程和算法模块这样对应:
| 流程步骤 | 典型算法模块 |
|---|---|
| 质控与过滤 | 统计分布、错误建模 |
| 比对 | 字符串搜索、动态规划、索引结构 |
| 组装 | 图模型、路径问题、共识 |
| 定量与检测 | 概率统计、优化、归一化 |
| 注释与解释 | 数据库映射、富集分析 |
真正使用具体工具时,最重要的不是记住某个命令,而是理解工具在流程中的位置、输入输出和它对后续步骤的影响。