Skip to content

ProtTrans

基于多种 Transformer 架构(T5、BERT、XLNet 等)的蛋白质语言模型集合, 在 UniRef 和 BFD 等大规模数据库上预训练。该模型可生成高质量的蛋白质 序列表征,支持迁移学习用于各种下游任务。

属性
用途多架构蛋白质语言模型预训练表征
时间复杂度O(n^2 * d)
空间复杂度O(n^2)
年份2021
难度进阶 (Intermediate)
实现语言Python
分类蛋白质语言模型

复杂度分析

  • 时间复杂度O(n^2 * d)
  • 空间复杂度O(n^2)

性能洞见:该算法时间复杂度属于多项式量级。空间复杂度较高;对超长序列可考虑 Hirschberg 算法等空间优化变体。

注:复杂度基于理论模型。实际性能受数据规模、硬件环境与实现优化影响,建议针对具体场景进行基准测试。

文献与实现

相关工具

ESM-2 · Ankh · ProtGPT2

标签

language-model transfer-learning representation-learning t5

Released under the MIT License.