跳转到内容

如何选择 alignment、assembly 或 pseudo-alignment

快速概览

根据研究目标(变异检测、定量分析、基因组重建)和数据特征,选择合适的序列分析策略。

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

不同任务面对的核心问题并不相同,因此”该先比对、先组装,还是直接做 pseudo-alignment”并没有统一答案。

这一页的目标,是帮助你根据研究问题、参考条件和输出需求做选择。

  • 输入:研究问题、样本类型、参考条件、下游目标
  • 输出:更合适的主流程方向与其背后的理由

选择流程的第一步不是看工具,而是回答:你最终要回答的生物学问题是什么?

  • 变异检测:关注样本与参考之间的差异(SNV、InDel、结构变异),需要精确的碱基级定位。
  • 表达定量:关注基因或转录本的相对丰度,需要高效的 read 分配策略。
  • 基因组重建:关注从头构建未知序列,不依赖已有参考。
  • 功能注释:关注”这段序列编码了什么”或”这个区域有哪些功能元件”。

不同的研究问题天然对应不同的分析策略。在明确问题之前讨论工具选择,往往会导致方向性错误。

参考基因组的质量和可用性是决定策略的关键因素:

参考条件推荐策略原因
有高质量参考基因组(如 GRCh38)alignment 或 pseudo-alignment可利用已有坐标系统,结果可比性强
有近缘物种参考(但非同种)宽松 alignment + 组装严格比对可能遗漏大量 reads,需结合组装发现新序列
无可用参考de novo assembly没有参考可依靠,只能从 reads 本身重建序列
参考存在但高度不完整hybrid 策略先做初步比对,对未比对 reads 进行组装补充

注意:参考基因组的质量不仅取决于”有没有”,还取决于参考与样本之间的进化距离、结构变异程度和版本是否匹配。例如,用 GRCh37 比对 GRCh38 数据集,即使流程跑通,坐标和注释也会不匹配。

第三步:根据任务类型选择策略

Section titled “第三步:根据任务类型选择策略”
  • 有高质量参考基因组;
  • 目标是定位 reads、做 variant calling、做注释驱动分析;
  • 需要精确坐标;
  • 需要检测结构变异(Structural Variant, SV)或拷贝数变异(Copy Number Variation, CNV);
  • 需要查看比对质量指标(如 MAPQ、insert size 分布)来辅助判断。

alignment 的核心优势在于提供精确的碱基级定位,使得每个 read 都能被映射到参考序列的特定位置。这对于变异检测至关重要,因为变异的定义本身就依赖于参考坐标。

  • 缺少合适参考;
  • 目标是重建新序列、新转录本或混合样本结构;
  • 更关心整体结构恢复而不是已有坐标上的定位;
  • 样本与参考差异过大(如肿瘤样本与正常参考);
  • 需要发现新的基因、转录本或非编码 RNA。

assembly 的核心优势在于不依赖已有参考,因此能发现参考中不存在的序列。在宏基因组学、转录组学和非模式生物研究中,assembly 是不可替代的策略。

  • 任务重点是 RNA-seq 表达定量;
  • 更关心转录本兼容性与丰度估计;
  • 不要求精确碱基级路径解释;
  • 样本量大、需要快速处理大量 RNA-seq 数据。

pseudo-alignment 的核心优势在于速度:它跳过了精确比对的昂贵步骤,直接根据 k-mer 兼容性将 reads 分配给转录本,速度可比传统 alignment 快 10-50 倍。但代价是牺牲了碱基级的精确性,因此不适合用于变异检测或需要查看具体比对位置的下游分析。

除了研究问题和参考条件,数据本身的特征也会影响策略选择:

  • 读长(read length):短读长(Illumina)适合 alignment-based 流程;长读长(PacBio、Nanopore)在 assembly 中有天然优势,因为长读长更容易跨越重复区域。
  • 测序深度(coverage):低深度数据(<10x)不适合 de novo assembly,因为覆盖不均匀会导致大量 gap;高深度数据(>50x)更适合 assembly 和变异检测。
  • 数据类型:DNA-seq 通常需要 alignment 或 assembly;RNA-seq 的表达定量可以用 pseudo-alignment;ChIP-seq 需要精确的 peak 定位,依赖 alignment。

最常见的问题不是”工具选错”,而是目标没说清楚:

  • 如果你要精确定位变异,却选了只强调兼容性判断的方法,结果就会失去解释力;
  • 如果你没有高质量参考,却强行把所有问题都放到 alignment 框架里,很多结构信息会被错过;
  • 如果你真正只关心表达定量,却仍做很重的全流程精确比对,可能只是增加了计算成本。

错误 1:用 pseudo-alignment 做 variant calling

pseudo-alignment 工具(如 Salmon、Kallisto)的设计目标是定量而非定位。它们不输出标准的比对文件(BAM/SAM),也无法提供每个碱基的比对质量。如果你需要检测变异,必须使用 BWA-MEM、minimap2 等工具做精确 alignment。

错误 2:在低质量参考上做严格 alignment

如果参考基因组与实际样本差异较大(如不同亚种、肿瘤样本),严格的 alignment 参数会导致大量 reads 无法比对(unmapped),从而丢失重要的生物学信息。这种情况下,应考虑放宽参数或结合 assembly 策略。

错误 3:对宏基因组样本做标准 alignment

宏基因组样本包含多种物种的混合 DNA,使用单一参考基因组做 alignment 会浪费大量计算资源,且无法回答”样本中有哪些物种”这个核心问题。应使用专门的宏基因组分类工具或进行 de novo metagenomic assembly。

策略核心算法模块代表工具
alignment字符串索引、动态规划、Seeding-ExtensionBWA-MEM, Bowtie2, minimap2, HISAT2
assemblyde Bruijn 图、OLC、路径搜索、共识计算SPAdes, SOAPdenovo2, Canu, Flye
pseudo-alignmentk-mer 索引、兼容性分类、EM 定量Salmon, Kallisto

假设你有一组人类肿瘤样本的 RNA-seq 数据,研究目标是:

  1. 检测肿瘤特异性融合基因;
  2. 同时比较肿瘤与正常组织的基因表达差异。

这种情况下,单一策略无法满足两个目标。合理的方案是:

RNA-seq FASTQ
-> STAR alignment (精确比对,用于融合基因检测)
-> Salmon quant (利用 alignment 结果做定量,或直接用 quasi-mapping)
-> DESeq2 (差异表达分析)

STAR 能提供剪接感知的精确比对,是融合基因检测的常用工具;而 Salmon 可以基于 STAR 的比对结果做快速定量,也可以独立运行 quasi-mapping。两者互补,覆盖了不同层面的分析需求。

  • 策略不是非此即彼:很多实际项目需要组合使用多种策略,例如”先 alignment 再对未比对 reads 做 assembly”。
  • 考虑计算资源:全基因组精确 alignment 的计算成本远高于 pseudo-alignment,在资源有限时需要权衡精度与效率。
  • 结果的可比性:alignment 结果使用参考坐标系统,不同样本之间的结果天然可比;assembly 结果的坐标是样本特异的,跨样本比较需要额外的处理步骤(如共线性分析)。
  • 版本管理:无论选择哪种策略,都应记录参考基因组版本、注释版本和工具版本,以确保结果可复现。

Alignment 和 pseudo-alignment 是互斥的选择

Section titled “Alignment 和 pseudo-alignment 是互斥的选择”

不是。很多实际项目需要组合使用多种策略。例如在融合基因检测中,STAR 精确比对和 Salmon 定量可以互补使用——前者提供剪接感知的比对用于检测融合事件,后者提供高效的转录本定量用于差异表达分析。策略选择应根据具体的研究问题灵活组合,而非机械地二选一。

de novo assembly 比基于参考的流程”更原始”

Section titled “de novo assembly 比基于参考的流程”更原始””

不是。de novo assembly 和 reference-based alignment 是解决不同问题的策略,不存在优劣之分。当参考基因组质量差、样本与参考差异大(如肿瘤、非模式生物)或研究目标涉及新序列发现时,de novo assembly 是不可替代的。相反,当参考基因组完整且研究目标是变异检测或定量时,reference-based 流程更高效且结果更可解释。

只要工具版本足够新,结果就一定更可靠

Section titled “只要工具版本足够新,结果就一定更可靠”

不是。新版本的工具可能修复了旧版本的问题,但也可能引入新的 bug 或改变默认参数,导致结果不一致。更重要的是,工具选择应匹配研究问题和数据特征。一个经典但经过充分验证的比对工具(如 BWA-MEM)在标准 DNA-seq 变异检测场景中,可能比最新发布但验证不足的新工具更可靠。关键是用对工具,而非用新工具。

不是。数据量应与研究目标和预期分析匹配。对于简单的定性与半定量分析(如物种组成估计),适度测序深度即可。过高的测序深度在差异表达分析中可能产生”统计显著但生物学意义不大的结果”(p-value hacking),同时浪费预算和计算资源。合理的做法是根据统计功效分析(power analysis)规划所需数据量。