跳转到内容

Metagenomics 流程总览

快速概览

宏基因组学分析流程:从环境样本到物种组成、功能注释与差异分析的计算管线。

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

宏基因组分析关注的是:从混合样本的测序数据中推断其中有哪些物种、它们的相对丰度如何,以及可能携带哪些功能特征。

与传统基因组学不同,宏基因组学的核心挑战在于样本本身就是多种生物的混合体。我们不知道样本中有哪些物种,也不知道它们的基因组序列。这意味着分析流程需要在不依赖单一参考基因组的前提下,从海量混合 reads 中重建出有意义的生物学信息。

  • 输入:混合样本 FASTQ(可能来自土壤、水体、肠道、口腔等环境样本)
  • 中间结果:质控结果、宿主序列去除后的 clean reads、分类候选列表、组装片段(contigs/scaffolds)、binning 结果、功能注释
  • 输出:物种组成与丰度估计、功能基因/通路概览、MAG(Metagenome-Assembled Genome,宏基因组组装基因组)或差异分析结果

宏基因组样本(尤其是人体相关样本)通常含有大量宿主 DNA。在分析前必须去除宿主序列,否则会严重干扰后续分类和组装。

质控步骤

  • 使用 FastQC 或 MultiQC 评估原始数据质量;
  • 使用 Trimmomatic 或 fastp 去除接头序列和低质量碱基;
  • 使用 Bowtie2 或 BWA 将 reads 比对到宿主参考基因组,去除宿主 reads。

常见问题

  • 宿主基因组版本不匹配导致去除不彻底;
  • 过度过滤导致低丰度物种 reads 被误删;
  • 接头序列未被完全识别,残留污染影响组装质量。

分类(Taxonomic Classification)是宏基因组分析中最基础也是最高频的步骤。它的目标是将每条 read 或每组 reads 分配到对应的物种或分类单元(Taxon)。

主要策略

策略核心思想代表工具特点
k-mer 精确匹配比对 reads 的 k-mer 与数据库中已知 k-merKraken2, CLARK速度极快,适合大规模数据
比对分类将 reads 比对到参考基因组数据库MEGAN, Kaiju精度较高,但速度较慢
组合标记基因通过标记基因(marker gene)推断物种组成MetaPhlAn3, mOTUs轻量化,定量准确
LCA 算法基于比对结果计算最低公共祖先MEGAN (LCA mode)能处理多映射 reads

丰度估计的挑战

  • 不同物种的基因组大小不同,直接用 read 计数估计丰度会产生偏差;
  • 需要考虑基因组拷贝数(Copy Number Variation)的影响;
  • 16S rRNA 基因的拷贝数在不同物种间差异很大,基于 16S 的定量需要校正。

如果研究目标不仅仅是”有哪些物种”,还包括”这些物种携带了什么基因”,就需要进行组装。

组装流程

clean reads -> k-mer 优化选择 -> de Bruijn 图构建 -> contig 生成 -> scaffold 构建

宏基因组组装面临比单物种组装更大的挑战:

  • 不同物种的丰度差异极大(可能跨越 4-5 个数量级),导致覆盖度极度不均匀;
  • 近缘物种的同源区域会混淆组装图,产生嵌合体(chimera)contigs;
  • 重复序列在不同基因组间的保守性使得组装更难解析。

Binning:将组装得到的 contigs 按物种来源分组,形成 MAG(Metagenome-Assembled Genome)。常用的 binning 策略包括:

  • 序列组成(sequence composition):利用 contig 的 k-mer 频率特征,来自同一基因组的 contigs 应具有相似的 k-mer 分布(如 MetaBAT2)。
  • 覆盖度差异(differential coverage):同一基因组在不同样本中的覆盖度变化趋势应一致(如 CONCOCT、MaxBin2)。
  • 混合策略:结合序列组成和覆盖度信息(如 MetaBAT2 的默认模式)。

MAG 质量评估:使用 CheckM 或 BUSCO 评估 MAG 的完整性和污染率。通常将 MAG 分为三个等级:

  • 高质量(High-quality):完整度 > 90%,污染率 < 5%;
  • 中等质量(Medium-quality):完整度 > 50%,污染率 < 10%;
  • 低质量(Low-quality):不满足上述标准。

获得物种组成或 MAG 后,下一步是理解这些物种”能做什么”。功能注释的目标是将基因序列映射到已知的生物学功能。

功能注释层次

注释层次数据库说明
基因功能eggNOG, UniProt, InterPro将基因注释到特定的蛋白质家族或功能域
代谢通路KEGG, MetaCyc将基因映射到代谢通路,理解物质代谢能力
抗性基因CARD, ResFinder识别抗生素抗性基因(Antibiotic Resistance Gene, ARG)
病毒相关PHASTER, VFDB识别前噬菌体和毒力因子

注意事项

  • 功能注释的结果高度依赖参考数据库的覆盖范围和版本;
  • 大量宏基因组基因(30-60%)在现有数据库中找不到同源序列,被称为”暗物质”基因;
  • 功能注释和物种注释应联合解读:某些功能(如抗性基因)可能分布在多种物种中。

宏基因组的难点在于样本是混合的,因此:

  • coverage 非均匀更严重,低丰度物种的 reads 可能只有几条,无法可靠分类或组装;
  • 数据库偏差会直接影响分类与注释:数据库中代表不足的类群(如某些环境微生物)容易被遗漏或错误分类;
  • 组装和功能解释都比单物种任务更复杂,嵌合体和污染是常态而非异常;
  • 不同工具的分类结果可能不一致,需要交叉验证。

错误 1:忽略宿主去除

分析人体肠道宏基因组时,如果不先去除人类宿主 reads(通常占 5-30%),大量计算资源会被浪费在无关序列上,且宿主 DNA 可能被错误分类为某些物种。

错误 2:用单一数据库做分类

不同的参考数据库覆盖的分类范围不同。例如,NCBI nt 数据库非常全面但体积庞大;Kraken2 的标准数据库更轻量但覆盖有限。对特定环境样本(如海洋),可能需要补充专用数据库。

错误 3:过度解读低丰度结果

由于测序错误和数据库噪声,低丰度物种的检出往往不可靠。一个物种只有 2-3 条 reads 支持时,“存在”的结论需要非常谨慎。

  • 字符串索引与快速分类:k-mer 索引、最小完美哈希(Minimal Perfect Hash)、LCA 算法;
  • 图算法与混合样本组装:de Bruijn 图、变长 k-mer 策略、图简化;
  • 聚类与降维:binning 中的序列组成聚类、覆盖度矩阵降维;
  • 数据库映射与功能注释:序列比对、HMM 搜索(HMMER)、功能域匹配;
  • 统计丰度估计:标准化方法、置信区间估计。

一个肠道宏基因组分析的简化流程:

1. 原始 FASTQ
-> FastQC (质量评估)
-> fastp (去接头、去低质量碱基)
-> Bowtie2 + GRCh38 (去除宿主 reads)
2. clean reads
-> Kraken2 + Bracken (物种分类与丰度估计)
-> Alpha/Beta diversity 分析(群落结构)
3. (可选) 组装与 binning
-> MEGAHIT (宏基因组组装)
-> MetaBAT2 (binning)
-> CheckM (MAG 质量评估)
4. 功能注释
-> Prodigal (基因预测)
-> eggNOG-mapper (功能注释)
-> 抗性基因筛查(CARD + ABRicate)

如果分类结果和组装结果严重不一致,就需要回头检查:

  • 数据库版本是否合适,是否覆盖了样本中可能存在的类群;
  • 低丰度物种是否在质控或组装过程中被过滤;
  • coverage 与污染情况是否影响了下游解释;
  • 组装参数(尤其是 k-mer 大小)是否适配样本的复杂度。
  • 数据库选择会极大影响结果:不同的参考数据库覆盖范围和分类体系不同,建议在方法部分明确说明使用的数据库及版本。
  • absence of evidence 不等于 evidence of absence:在宏基因组中,一个物种未被检出可能是测序深度不够、数据库不覆盖或该物种确实不存在,不能简单地将”未检出”等同于”不存在”。
  • 组装、分类和功能注释往往需要联合解读:单独看任何一个层面的结果都可能产生误导。例如,一个抗性基因的检出可能来自低丰度的污染物种而非真正的病原体。
  • 标准化与批次效应:多样本比较时需要考虑测序深度差异和批次效应,常用 TSS(Total Sum Scaling)或其他标准化方法。
  • 计算资源规划:宏基因组分析的计算量通常远大于单物种分析,尤其是组装步骤。建议提前评估数据量和可用计算资源。

不是。宏基因组中一个物种未被检出可能是测序深度不够、数据库不覆盖该类群、提取效率低或该物种确实不存在。“Absence of evidence is not evidence of absence”——在解释分类结果时,必须谨慎区分”未检测到”和”确实不存在”。低丰度物种的检出尤其需要考虑检测限。

不是。虽然 contig N50 是常用的组装质量指标,但更长的 contig 不一定更准确。宏基因组组装中的嵌合体(chimera)contig——将来自不同物种的序列错误拼接在一起——是常见的质量问题,长 contig 反而可能隐藏更严重的嵌合错误。组装质量的评估应结合完整性(如 CheckM)和污染率,而非仅看长度。

不一定。不同工具(如 Kraken2、MetaPhlAn3、Centrifuge)使用不同的分类策略(k-mer 精确匹配 vs 标记基因 vs 比对分类)和不同的参考数据库,对同一样本可能给出不同的物种组成估计。差异在属或种的水平上尤其明显。比较研究应固定工具和数据库版本,并关注方法之间一致的高置信分类结果。

功能注释可以直接等同于功能能力

Section titled “功能注释可以直接等同于功能能力”

不能。功能注释(如 KEGG 通路映射)是基于序列同源的预测,检出某个通路基因并不意味着该通路在当前环境中是活跃的。基因可能不表达、表达水平可能不足以产生功能效应、或者缺少通路中的其他关键基因。功能注释应视为”潜力”而非”现实”,需要结合宏基因组转录组(metatranscriptomics)或代谢组学数据验证功能活性。