跳转到内容

UniProt 蛋白质知识库:序列、功能与注释整合

快速概览

UniProt 是蛋白质序列与功能注释的统一入口。理解 Swiss-Prot(人工审编)与 TrEMBL(自动注释)的质量差异、Accession 体系、以及蛋白层级注释(功能、结构域、PTM、互作),是从基因走向功能解释的关键。

  • Swiss-Prot:高质量人工审编,经过实验验证的蛋白质记录
  • TrEMBL:自动注释,覆盖更广但质量未经人工确认
  • Accession(如 P04637)是稳定的蛋白质标识符
  • 提供功能、结构域、翻译后修饰(PTM)、亚细胞定位等注释
  • 跨数据库映射:连接基因数据库(Ensembl/NCBI)、结构数据库(PDB)、通路数据库(KEGG/Reactome)
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

UniProt(Universal Protein Resource) 是全球最全面的蛋白质序列与功能注释数据库,由 EMBL-EBI、SIB 和 PIR 联合维护。

子库质量规模说明
Swiss-Prot人工审编(Reviewed)~56 万条高质量,经过实验验证和文献确认
TrEMBL自动注释(Unreviewed)~2.2 亿条覆盖广,但未经人工确认

每条 UniProt 记录包含:

  • 蛋白质序列:氨基酸序列(FASTA 格式)
  • 功能注释:分子功能、生物学过程、细胞组分(Gene Ontology)
  • 结构域:保守功能域(Pfam、InterPro)
  • 翻译后修饰(PTM):磷酸化、乙酰化、泛素化等
  • 亚细胞定位:蛋白质在细胞中的位置
  • 变异信息:自然变异、致病变变、药物反应
  • 跨数据库链接:PDB、KEGG、Reactome、ClinVar 等

UniProt 是从基因/转录本走向蛋白质功能解释的关键桥梁:

  • 蛋白质功能注释:提供实验验证的分子功能和生物学过程
  • 结构域识别:保守功能域暗示蛋白质的催化活性或结合特性
  • 变异解释:氨基酸替换如何影响蛋白质功能或稳定性
  • 药物靶点:已知药物-蛋白质相互作用信息
  • 跨物种映射:直系同源蛋白质的功能保守性

关键认知:基因-level 注释(Ensembl/NCBI Gene)告诉你”这个基因在哪里”,UniProt 告诉你”这个蛋白质做什么”。

UniProt Accession 是稳定的标识符,不随蛋白质命名变化而变化:

Accession示例说明
6 位字符P04637经典格式(如人类 TP53 蛋白)
10 位字符A0A024B7W1扩展格式(新测序物种)
特性Accession蛋白质名称
稳定性稳定,不变化可能随命名约定变化
唯一性唯一对应一条蛋白质可能存在同义命名
推荐使用数据库查询和程序分析人工阅读和文献交流

TP53 蛋白示例

  • Accession: P04637
  • 蛋白质名称: Cellular tumor antigen p53
  • 基因名称: TP53
  • 物种: Human
维度 Swiss-Prot TrEMBL
**注释方式** 人工审编 + 实验验证 自动注释(计算预测)
**置信度** 高,经过文献确认 中等,需要实验验证
**覆盖度** 较小(~56 万条) 很大(~2.2 亿条)
**更新频率** 持续人工更新 自动批量更新
场景推荐原因
查询已知人类蛋白功能Swiss-Prot高质量人工注释
新测序物种蛋白质TrEMBLSwiss-Prot 可能尚未覆盖
大规模批量分析TrEMBL覆盖更全
临床或药物开发Swiss-Prot置信度高

建议:优先使用 Swiss-Prot,对于未覆盖的蛋白质再查询 TrEMBL。

描述蛋白质的分子功能和生物学角色:

FUNCTION: Acts as a tumor suppressor in many tumor types;
induces growth arrest or apoptosis depending on the
physiological circumstances and cell type.

保守功能域暗示蛋白质的催化或结合活性:

结构域位置功能
Transactivation domain1-43转录激活
DNA-binding domain94-292DNA 结合
Tetramerization domain323-356四聚体形成
PTM 类型位置功能影响
PhosphorylationSer-15, Ser-20稳定蛋白质,激活转录
AcetylationLys-382增强 DNA 结合
UbiquitinationLys-48蛋白酶体降解

自然变异和致病变异信息:

VARIANT: Pro 72 → Arg (dbSNP:rs1042522)
- Associated with increased apoptosis and cancer susceptibility
DISEASE: Mutations in TP53 are found in >50% of human cancers

UniProt 充当蛋白质世界的中心枢纽,连接其他数据库:

目标数据库映射内容示例
Ensembl/NCBI Gene基因 → 蛋白质ENSG00000141510 → P04637
PDB蛋白质 → 三维结构P04637 → 1TUP(p53 tetramer)
KEGG/Reactome蛋白质 → 通路P04637 → hsa04115(p53 signaling)
ClinVar变异 → 临床意义P04637:Arg248Trp → Pathogenic
DrugBank蛋白质 → 药物P04637 → 药物靶点
  • UniProt 是蛋白质序列与功能注释的统一入口
  • Swiss-Prot(人工审编)质量高,TrEMBL(自动注释)覆盖广
  • Accession 是稳定的蛋白质标识符
  • 提供功能、结构域、PTM、变异、跨数据库映射等注释
  • 从基因走向蛋白质功能解释的关键桥梁