Skip to content

MANGO

基于上下文建模的参考基因组无关序列压缩方法,通过学习序列局部统计特征实现基因组数据的高效压缩。 该方法无需参考基因组即可达到优秀的压缩比,适用于新物种或参考基因组不可用的场景。

属性
用途无需参考基因组的基因组序列压缩
时间复杂度O(n)
空间复杂度O(n)
年份2018
难度高级 (Advanced)
实现语言C++
分类数据压缩

复杂度分析

  • 时间复杂度O(n)
  • 空间复杂度O(n)

性能洞见:该算法时间复杂度属于线性(O(n) 量级),可在 TB 级数据上线性扩展,适合流式处理。空间复杂度线性,通常可通过滑动窗口等技术在常数因子上优化。

注:复杂度基于理论模型。实际性能受数据规模、硬件环境与实现优化影响,建议针对具体场景进行基准测试。

相关工具

Genozip · CRAM · gzip

标签

reference-free genome-compression context-modeling

Released under the MIT License.