Skip to content

开源宏基因组技术白皮书

MICOS-2024

这不是传统意义上的命令说明书,而是一份面向严苛读者的项目导读:解释仓库如何把原始测序输入转化为可重现、可审查、可讨论的微生物组分析结果。

站点被重构为评审导向的技术白皮书,用来回答两个关键问题:项目究竟做了什么,以及它为什么值得被认真看待。

  • Python 包 + Click CLI
  • WDL 工作流资产
  • 容器化执行能力
  • 中英双语技术白皮书

本站强调什么

仓库真实能力、运行边界、架构意图,以及其背后的科研工具谱系。

本站刻意呈现什么

稳定 CLI 主链路、扩展型工作流资产,以及“目标蓝图”与“当前实现面”之间的差异。

推荐阅读路径

先读学院,再看架构,随后按你的角色进入指南或研究部分,最后再回到具体模块页。

主运行面

CLI 优先编排

稳定入口集中在 Click CLI,Shell 脚本保留为兼容包装层,而不是第二套事实标准。

工作流姿态

WDL + 容器

仓库同时持有步骤级 WDL、Singularity 定义和 Docker Compose 示例,强调可重现环境。

阅读目标

面试官级可解释性

本页不是功能海报,而是让评审快速判断项目边界、工程组织和科研依据的入口。

流程叙事

当执行链路被看见,项目才更值得信任。

MICOS-2024 最适合被理解为一个四段式证据流程:输入清洁、分类学证据、多样性解释,以及面向报告的最终产物。

MICOS pipeline overviewFrom raw FASTQ to interpretable microbiome outputsSTAGE 01QCFastQC, KneadData,trimming, host depletion.Outputclean readsSTAGE 02TaxonomyKraken2, kraken-biom,Krona summaries.Outputreports, biom, kronaSTAGE 03DiversityQIIME2 metrics, alphaand beta views.Outputordination and tablesSTAGE 04ReportFunctional outputs andfinal summary views.
使用 Vue SVG 组件实现零延迟主题切换,单一源维护。
阅读信号
我们把流程写成“证据变换链”,而不是单纯罗列工具名字。
工程信号
仓库同时存在稳定 CLI 入口与更宽泛的工作流资产,文档会明确区分,而不是混成一层。
运行信号
多个高级分析仍位于 scripts/ 中,属于专家扩展面,而非与主 CLI 相同稳定级别的接口承诺。

阶段 01

质量控制与宿主去除

FastQC 与 KneadData 构成入口守门链路,为后续分析提供更干净的读段。

  • 原始 FASTQ 摄取
  • 过滤与修剪
  • 宿主读段清除

阶段 02

物种分类证据生成

Kraken2、kraken-biom 与 Krona 将清洗后的读段转换为可追溯的分类学证据。

  • Kraken2 报告
  • BIOM 转换
  • Krona 交互视图

阶段 03

多样性解释

QIIME2 与元数据联动把丰度表转化为生态学层面的样本差异与群落结构解释。

  • Alpha 多样性
  • Beta 多样性
  • 排序分析输出

阶段 04

功能读出与结果汇总

功能注释与汇总模块将通路、功能表和最终报告串成可交付结果。

  • 功能矩阵
  • 辅助脚本
  • HTML 面向汇总

系统剖面

不是只有页面,更要能映射回仓库层次。

一个成熟的文档站应该让读者顺着页面直接定位到代码:入口命令、Python 模块、工作流定义、配置模板、容器资产以及验证面。

Runtime topologyThe repository blends Python orchestration, shell wrappers, WDL stages, and container assets.ENTRY LAYERmicos CLIClick-based commands,validation and dry-run.ORCHESTRATIONPython modulesFull pipeline, quality control,taxonomy, diversity, reporting.WORKFLOW ASSETSsteps/ + containers/WDL stages, Singularity defs,Docker Compose services.CONFIG SURFACEconfig/*.templateProject, database, and samplemetadata templates.POWER USER SURFACEscripts/Thin wrappers plus experimentalanalyses outside the CLI core.
项目的真实执行面分布在 CLI、Python 编排、工作流定义与扩展脚本之间。

稳定核心

micos/cli.py 提供 full-runvalidate-config 以及质量控制、分类、多样性、功能注释、结果汇总等命令。

工作流资产

steps/deploy/containers/ 把项目扩展到可重现执行环境和步骤级编排模式。

研究姿态

MICOS-2024 的价值不在于重新发明底层算法,而在于把已有微生物组工具整合为一套更完整的分析体验,这一点在研究章节中被正面呈现。

执行链速记

一张图理解仓库的抽象分层

项目跨越多个抽象层级,文档必须帮助读者判断每个职责究竟落在哪一层。

研究基底

项目的可信度,部分来自它继承了什么。

MICOS-2024 不是无中生有,它站在成熟微生物组工具之上进行系统整合。把这种谱系写清楚,本身就是专业度的一部分。

  1. Wood DE, Lu J, Langmead B

    Improved metagenomic analysis with Kraken 2

    Genome Biology · 2019

    Open source / paper link
  2. Bolyen E, Rideout JR, Dillon MR, et al.

    Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2

    Nature Biotechnology · 2019

    Open source / paper link
  3. McMurdie PJ, Holmes S

    phyloseq: an R package for reproducible interactive analysis and graphics of microbiome census data

    PLoS ONE · 2013

    Open source / paper link

MICOS-2024 技术白皮书,面向可重现宏基因组分析。