跳转到内容

PDB 蛋白质结构数据库:实验结构与计算预测

快速概览

PDB(Protein Data Bank)是全球唯一的实验测定生物大分子三维结构数据库。理解结构文件的格式(PDB/mmCIF)、测定方法(X-ray、NMR、Cryo-EM)和结构质量指标(分辨率、R-factor),是从序列走向结构功能解释的基础。

  • PDB 存储实验测定的蛋白质、核酸、复合体三维结构
  • 主要测定方法:X 射线晶体学、NMR、冷冻电镜(Cryo-EM)
  • 结构文件格式:PDB(旧)和 mmCIF(新标准)
  • 质量指标:分辨率(Resolution)、R-factor/R-free 评估结构可靠性
  • AlphaFold DB 提供计算预测结构,与 PDB 实验结构互补
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

PDB(Protein Data Bank) 是全球唯一的实验测定生物大分子三维结构存档数据库,由 wwPDB(Worldwide PDB)联盟维护。

PDB 存储以下类型的结构:

结构类型占比示例
蛋白质~90%酶、受体、抗体、结构蛋白
核酸~5%DNA、RNA、DNA-RNA 复合体
复合体~5%蛋白-DNA、蛋白-蛋白、核糖体
标识符格式示例说明
PDB ID4 位字符1TUP、6VXX传统标识符,wwPDB 分配
Entry ID同 PDB ID1TUP新版命名,与 PDB ID 等价

PDB 结构信息是从序列走向功能机制的关键证据:

  • 功能位点识别:活性位点、结合口袋、催化残基的三维位置
  • 变异解释:氨基酸替换如何影响结构稳定性或相互作用
  • 药物设计:基于结构的药物设计(structure-based drug design)
  • 突变效应:致病突变是否破坏关键结构区域
  • 分子互作:蛋白-蛋白、蛋白-DNA 相互作用的界面

关键认知:结构比序列更接近功能。远缘同源蛋白可能序列差异很大(< 30% 相似),但折叠方式相似。

方法分辨率范围适用场景局限
X 射线晶体学0.8-3.5 Å大多数蛋白质结构需要结晶,无法观察动态
NMR不适用小蛋白、动态研究仅适用于 < 40 kDa 分子
冷冻电镜(Cryo-EM)1.5-4.0 Å大型复合体、膜蛋白设备昂贵,数据处理复杂

分辨率(Resolution)衡量结构细节的清晰度:

分辨率质量等级可见信息
< 1.5 Å超高分辨率单个原子、氢键、水分子
1.5-2.5 Å高分辨率侧链方向、配体结合
2.5-3.5 Å中等分辨率主链轨迹、大体侧链
> 3.5 Å低分辨率仅主链框架,侧链模糊

越低越好:分辨率数值越小,结构越清晰。

文本格式,每行 80 字符(历史限制):

ATOM 1 N MET A 1 27.340 24.430 2.614 1.00 20.00 N
ATOM 2 CA MET A 1 26.266 25.413 2.842 1.00 20.00 C
ATOM 3 C MET A 1 26.913 26.639 3.531 1.00 20.00 C
内容
1-6记录类型(ATOM/HETATM)
13-16原子名称
17替代位置指示
18-20残基名称
22链 ID
23-26残基序号
31-38X 坐标
39-46Y 坐标
47-54Z 坐标
55-60占位符(occupancy)
61-66温度因子(B-factor)

更灵活的结构化格式,无 80 字符限制:

loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_comp_id
_atom_site.label_seq_id
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
ATOM 1 N N MET 1 27.340 24.430 2.614
ATOM 2 C CA MET 1 26.266 25.413 2.842

趋势:wwPDB 正在从 PDB 格式转向 mmCIF 格式,新结构仅以 mmCIF 存档。

指标说明优质阈值
Resolution测定分辨率< 2.5 Å
R-factor模型与实验数据拟合度< 0.20
R-free交叉验证拟合度< 0.25
Ramachandran favored二面角合理性> 98%
Clashscore原子碰撞数< 10
  • R-factor:模型与观测数据的拟合度(训练集)
  • R-free:使用未参与精修的数据计算(测试集)

关键注意:R-free 比 R-factor 更可靠地反映模型质量。如果 R-free 远高于 R-factor,可能过拟合。

维度 PDB(实验) AlphaFold DB(预测)
**来源** 实验测定 深度学习预测
**覆盖度** ~20 万条 ~2 亿条(覆盖几乎所有已知蛋白)
**可靠性** 实验验证,高置信度 预测置信度因区域而异(pLDDT)
**动态信息** 可能包含多个构象 通常单一构象
**配体/复合体** 可包含配体、DNA、其他蛋白 仅预测单个蛋白质链
场景推荐原因
已知实验结构PDB经过实验验证
无实验结构AlphaFold DB预测结构可用
配体结合研究PDB包含配体坐标
大规模结构分析AlphaFold DB覆盖更全

最佳实践:优先使用 PDB 实验结构,如无则使用 AlphaFold 预测结构,但需注意预测置信度(pLDDT 分数)。

  • PDB 是实验测定结构的唯一存档数据库
  • 三种主要测定方法:X-ray、NMR、Cryo-EM,分辨率是关键指标
  • 结构格式从 PDB 转向 mmCIF,质量指标包括 R-factor/R-free
  • AlphaFold DB 提供预测结构,与 PDB 互补使用
  • 结构比序列更接近功能,是药物设计和变异解释的关键