Metagenomics 流程总览

快速概览

宏基因组学分析流程：从环境样本到物种组成、功能注释与差异分析的计算管线。

任务目标

宏基因组分析关注的是：从混合样本的测序数据中推断其中有哪些物种、它们的相对丰度如何，以及可能携带哪些功能特征。

与传统基因组学不同，宏基因组学的核心挑战在于样本本身就是多种生物的混合体。我们不知道样本中有哪些物种，也不知道它们的基因组序列。这意味着分析流程需要在不依赖单一参考基因组的前提下，从海量混合 reads 中重建出有意义的生物学信息。

输入输出

输入：混合样本 FASTQ（可能来自土壤、水体、肠道、口腔等环境样本）
中间结果：质控结果、宿主序列去除后的 clean reads、分类候选列表、组装片段（contigs/scaffolds）、binning 结果、功能注释
输出：物种组成与丰度估计、功能基因/通路概览、MAG（Metagenome-Assembled Genome，宏基因组组装基因组）或差异分析结果

前置知识

步骤总览

1. 质控与宿主污染去除

宏基因组样本（尤其是人体相关样本）通常含有大量宿主 DNA。在分析前必须去除宿主序列，否则会严重干扰后续分类和组装。

质控步骤：

使用 FastQC 或 MultiQC 评估原始数据质量；
使用 Trimmomatic 或 fastp 去除接头序列和低质量碱基；
使用 Bowtie2 或 BWA 将 reads 比对到宿主参考基因组，去除宿主 reads。

常见问题：

宿主基因组版本不匹配导致去除不彻底；
过度过滤导致低丰度物种 reads 被误删；
接头序列未被完全识别，残留污染影响组装质量。

2. 物种分类与丰度估计

分类（Taxonomic Classification）是宏基因组分析中最基础也是最高频的步骤。它的目标是将每条 read 或每组 reads 分配到对应的物种或分类单元（Taxon）。

主要策略：

策略	核心思想	代表工具	特点
k-mer 精确匹配	比对 reads 的 k-mer 与数据库中已知 k-mer	Kraken2, CLARK	速度极快，适合大规模数据
比对分类	将 reads 比对到参考基因组数据库	MEGAN, Kaiju	精度较高，但速度较慢
组合标记基因	通过标记基因（marker gene）推断物种组成	MetaPhlAn3, mOTUs	轻量化，定量准确
LCA 算法	基于比对结果计算最低公共祖先	MEGAN (LCA mode)	能处理多映射 reads

丰度估计的挑战：

不同物种的基因组大小不同，直接用 read 计数估计丰度会产生偏差；
需要考虑基因组拷贝数（Copy Number Variation）的影响；
16S rRNA 基因的拷贝数在不同物种间差异很大，基于 16S 的定量需要校正。

3. 组装与 Binning（可选但推荐）

如果研究目标不仅仅是”有哪些物种”，还包括”这些物种携带了什么基因”，就需要进行组装。

组装流程：

clean reads -> k-mer 优化选择 -> de Bruijn 图构建 -> contig 生成 -> scaffold 构建

宏基因组组装面临比单物种组装更大的挑战：

不同物种的丰度差异极大（可能跨越 4-5 个数量级），导致覆盖度极度不均匀；
近缘物种的同源区域会混淆组装图，产生嵌合体（chimera）contigs；
重复序列在不同基因组间的保守性使得组装更难解析。

Binning：将组装得到的 contigs 按物种来源分组，形成 MAG（Metagenome-Assembled Genome）。常用的 binning 策略包括：

序列组成（sequence composition）：利用 contig 的 k-mer 频率特征，来自同一基因组的 contigs 应具有相似的 k-mer 分布（如 MetaBAT2）。
覆盖度差异（differential coverage）：同一基因组在不同样本中的覆盖度变化趋势应一致（如 CONCOCT、MaxBin2）。
混合策略：结合序列组成和覆盖度信息（如 MetaBAT2 的默认模式）。

MAG 质量评估：使用 CheckM 或 BUSCO 评估 MAG 的完整性和污染率。通常将 MAG 分为三个等级：

高质量（High-quality）：完整度 > 90%，污染率 < 5%；
中等质量（Medium-quality）：完整度 > 50%，污染率 < 10%；
低质量（Low-quality）：不满足上述标准。

4. 功能注释与通路解释

获得物种组成或 MAG 后，下一步是理解这些物种”能做什么”。功能注释的目标是将基因序列映射到已知的生物学功能。

功能注释层次：

注释层次	数据库	说明
基因功能	eggNOG, UniProt, InterPro	将基因注释到特定的蛋白质家族或功能域
代谢通路	KEGG, MetaCyc	将基因映射到代谢通路，理解物质代谢能力
抗性基因	CARD, ResFinder	识别抗生素抗性基因（Antibiotic Resistance Gene, ARG）
病毒相关	PHASTER, VFDB	识别前噬菌体和毒力因子

注意事项：

功能注释的结果高度依赖参考数据库的覆盖范围和版本；
大量宏基因组基因（30-60%）在现有数据库中找不到同源序列，被称为”暗物质”基因；
功能注释和物种注释应联合解读：某些功能（如抗性基因）可能分布在多种物种中。

每步依赖与常见错误

宏基因组的难点在于样本是混合的，因此：

coverage 非均匀更严重，低丰度物种的 reads 可能只有几条，无法可靠分类或组装；
数据库偏差会直接影响分类与注释：数据库中代表不足的类群（如某些环境微生物）容易被遗漏或错误分类；
组装和功能解释都比单物种任务更复杂，嵌合体和污染是常态而非异常；
不同工具的分类结果可能不一致，需要交叉验证。

典型错误案例

错误 1：忽略宿主去除

分析人体肠道宏基因组时，如果不先去除人类宿主 reads（通常占 5-30%），大量计算资源会被浪费在无关序列上，且宿主 DNA 可能被错误分类为某些物种。

错误 2：用单一数据库做分类

不同的参考数据库覆盖的分类范围不同。例如，NCBI nt 数据库非常全面但体积庞大；Kraken2 的标准数据库更轻量但覆盖有限。对特定环境样本（如海洋），可能需要补充专用数据库。

错误 3：过度解读低丰度结果

由于测序错误和数据库噪声，低丰度物种的检出往往不可靠。一个物种只有 2-3 条 reads 支持时，“存在”的结论需要非常谨慎。

对应算法模块

字符串索引与快速分类：k-mer 索引、最小完美哈希（Minimal Perfect Hash）、LCA 算法；
图算法与混合样本组装：de Bruijn 图、变长 k-mer 策略、图简化；
聚类与降维：binning 中的序列组成聚类、覆盖度矩阵降维；
数据库映射与功能注释：序列比对、HMM 搜索（HMMER）、功能域匹配；
统计丰度估计：标准化方法、置信区间估计。

示例

一个肠道宏基因组分析的简化流程：

1. 原始 FASTQ
   -> FastQC (质量评估)
   -> fastp (去接头、去低质量碱基)
   -> Bowtie2 + GRCh38 (去除宿主 reads)

2. clean reads
   -> Kraken2 + Bracken (物种分类与丰度估计)
   -> Alpha/Beta diversity 分析（群落结构）

3. (可选) 组装与 binning
   -> MEGAHIT (宏基因组组装)
   -> MetaBAT2 (binning)
   -> CheckM (MAG 质量评估)

4. 功能注释
   -> Prodigal (基因预测)
   -> eggNOG-mapper (功能注释)
   -> 抗性基因筛查（CARD + ABRicate）

如果分类结果和组装结果严重不一致，就需要回头检查：

数据库版本是否合适，是否覆盖了样本中可能存在的类群；
低丰度物种是否在质控或组装过程中被过滤；
coverage 与污染情况是否影响了下游解释；
组装参数（尤其是 k-mer 大小）是否适配样本的复杂度。

注意事项

数据库选择会极大影响结果：不同的参考数据库覆盖范围和分类体系不同，建议在方法部分明确说明使用的数据库及版本。
absence of evidence 不等于 evidence of absence：在宏基因组中，一个物种未被检出可能是测序深度不够、数据库不覆盖或该物种确实不存在，不能简单地将”未检出”等同于”不存在”。
组装、分类和功能注释往往需要联合解读：单独看任何一个层面的结果都可能产生误导。例如，一个抗性基因的检出可能来自低丰度的污染物种而非真正的病原体。
标准化与批次效应：多样本比较时需要考虑测序深度差异和批次效应，常用 TSS（Total Sum Scaling）或其他标准化方法。
计算资源规划：宏基因组分析的计算量通常远大于单物种分析，尤其是组装步骤。建议提前评估数据量和可用计算资源。

后续阅读

如果关注单个物种的基因组分析，阅读 NGS 流程总览；
如果关注组装算法的原理，阅读 de Bruijn graph 组装；
如果关注分类算法的细节，阅读序列比对；
如果关注功能注释相关的数据库，阅读数据库与注释系统一览。

常见误区

未检出等于不存在

不是。宏基因组中一个物种未被检出可能是测序深度不够、数据库不覆盖该类群、提取效率低或该物种确实不存在。“Absence of evidence is not evidence of absence”——在解释分类结果时，必须谨慎区分”未检测到”和”确实不存在”。低丰度物种的检出尤其需要考虑检测限。

组装结果中 contig 越长越好

不是。虽然 contig N50 是常用的组装质量指标，但更长的 contig 不一定更准确。宏基因组组装中的嵌合体（chimera）contig——将来自不同物种的序列错误拼接在一起——是常见的质量问题，长 contig 反而可能隐藏更严重的嵌合错误。组装质量的评估应结合完整性（如 CheckM）和污染率，而非仅看长度。

不同分类工具的结果应该一致

不一定。不同工具（如 Kraken2、MetaPhlAn3、Centrifuge）使用不同的分类策略（k-mer 精确匹配 vs 标记基因 vs 比对分类）和不同的参考数据库，对同一样本可能给出不同的物种组成估计。差异在属或种的水平上尤其明显。比较研究应固定工具和数据库版本，并关注方法之间一致的高置信分类结果。

功能注释可以直接等同于功能能力

不能。功能注释（如 KEGG 通路映射）是基于序列同源的预测，检出某个通路基因并不意味着该通路在当前环境中是活跃的。基因可能不表达、表达水平可能不足以产生功能效应、或者缺少通路中的其他关键基因。功能注释应视为”潜力”而非”现实”，需要结合宏基因组转录组（metatranscriptomics）或代谢组学数据验证功能活性。