跳转到内容

蛋白结构基础

快速概览

蛋白质的三维结构是其功能的基础。从氨基酸序列到复杂的四级结构,每一层次都为理解蛋白如何工作提供了关键信息。结构比序列更接近功能,因为远缘蛋白可能序列差异很大但折叠方式相似。

  • 一级结构到四级结构的层次递进关系
  • motif 与 domain 是理解蛋白功能模块的关键概念
  • 结构决定功能,但需注意构象动态与无序区域

引言:为什么需要理解蛋白结构

Section titled “引言:为什么需要理解蛋白结构”

想象你面前有两份说明书:一份是零件清单(氨基酸序列),另一份是组装好的机器三维图(蛋白质结构)。哪份更能帮你理解这台机器如何工作?

这正是生物信息学中序列与结构的区别。早在 1950 年代,Frederick Sanger 首次测定了胰岛素的氨基酸序列,开创了蛋白质研究的序列时代。但很快科学家发现,仅凭序列很难预测蛋白如何与其他分子相互作用、如何催化化学反应。直到 X 射线晶体学和后来的 cryo-EM 等技术成熟,人们才能真正”看到”蛋白的三维构象。

理解蛋白结构之所以重要,是因为:

  • 活性位点的几何约束:催化反应需要精确的原子空间排布
  • 分子识别的特异性:蛋白与底物、DNA 或其他蛋白的结合依赖形状互补
  • 进化信息的保存:远缘同源蛋白可能序列差异巨大,但结构保守

蛋白质结构组织成四个经典层次,这一框架由 Linderstrøm-Lang 于 1952 年提出,至今仍是理解蛋白结构的基础。

一级结构是氨基酸的线性序列,由肽键连接。它是遗传信息的直接产物,也是更高层次结构的基础。

氨基酸残基
20 种标准氨基酸,每种具有独特的侧链化学性质(疏水、亲水、带电、芳香等)
肽键
氨基酸之间通过脱水缩合形成的共价键,具有部分双键特性,限制旋转自由度
N端与C端
肽链的两个末端,分别保留游离氨基和羧基,通常翻译从 N 端开始

二级结构是局部片段的空间构象,由主链原子间的氢键稳定。两种最经典的二级结构由 Linus Pauling 等人于 1951 年预测:

  • α-螺旋(α-helix):主链形成右手螺旋,每圈约 3.6 个残基,氢键存在于 i 与 i+4 残基之间
  • β-折叠(β-sheet):多条肽链或同一肽链的不同片段平行排列,形成氢键网络,可以是平行或反平行
  • 无规卷曲/环(loop):连接二级结构元件的柔性区域,常参与功能位点形成

二级结构的形成主要由主链的氢键模式决定,这一发现的重要意义在于:局部结构主要由局部序列决定,为后续的结构预测奠定了基础。

三级结构是单条多肽链的整体三维折叠。与二级结构不同,三级结构的稳定涉及多种相互作用:

  • 疏水相互作用:疏水侧链倾向于埋藏于分子内部,远离水环境
  • 氢键:侧链之间、侧链与主链之间形成
  • 离子键/盐桥:带相反电荷的侧链之间的静电吸引
  • 二硫键:半胱氨酸残基之间形成的共价键,在胞外蛋白中尤为常见
  • 范德华力:原子间的弱吸引力

三级结构的形成遵循**疏水塌陷(hydrophobic collapse)**模型:疏水残基首先聚集形成核心,带动其他部分折叠。

四级结构描述多个独立折叠的亚基如何组装成功能复合体。许多蛋白需要形成寡聚体才能执行功能:

  • 同源寡聚体:相同亚基的组合(如血红蛋白的 α₂β₂ 实际上是异源寡聚体)
  • 异源寡聚体:不同亚基的组合
  • 蛋白复合体:更复杂的组装,如核糖体、蛋白酶体

四级结构的组装通常涉及亚基表面的互补性,以及特定的相互作用界面。

protein folding hierarchy
蛋白质结构的四个层次:从线性序列到局部二级结构、整体折叠,再到多亚基复合体。每一层次都建立在前一层次之上,又赋予新的功能属性。

在四级结构之下,还存在两个重要的功能-结构单元概念:motif 和 domain。

Motif 是局部序列或结构模式,通常较短(3-20 个残基),在进化中重复出现:

序列 motif
特定功能的保守序列模式,如磷酸化位点、核定位信号
结构 motif
局部三维结构单元,如锌指(zinc finger)、螺旋-转角-螺旋(helix-turn-helix)
功能关联
motif 常与特定生化功能相关:DNA 结合、蛋白质-蛋白质相互作用、催化活性

Domain 是更大的、相对独立的折叠单元,通常包含 100-300 个残基:

  • 结构独立性:许多 domain 可以在分离后独立折叠,保持原有结构
  • 功能独立性:单个 domain 常执行特定功能(如结合 ATP、识别 DNA)
  • 组合性:复杂蛋白常由多个 domain 组合而成,这是蛋白质进化的重要机制(domain shuffling)

Domain 的识别对于理解蛋白功能至关重要:

  • 一个未知功能的蛋白如果含有已知的 kinase domain,可以推断其激酶活性
  • Domain 组成(domain architecture)比全长序列更能反映功能分类

序列相似性与结构相似性的关系并非线性。考虑以下场景:

序列相似性结构相似性功能关系典型情况
> 90%几乎相同相同或高度相似同一物种的同源基因
30-90%高度相似可能相似远缘同源
< 30%可能相似可能相似超家族,极端远缘
不相关相似可能相似功能趋同(convergent evolution)

这一观察引出了结构分类数据库(如 SCOP、CATH)的重要性:它们基于结构而非序列对蛋白进行分类。

为什么远缘蛋白可能保留相似结构?

  1. 功能约束:如果特定三维构象对功能至关重要,自然选择会保留它
  2. 折叠稳定性:某些折叠方式在热力学上特别有利
  3. 进化速率差异:结构比序列进化更慢

蛋白质不是静态的雕塑,而是在不断运动:

许多蛋白需要在不同构象之间切换以执行功能:

  • 诱导契合(induced fit):底物结合引起活性位点构象变化
  • 变构调节(allosteric regulation):远距离位点的结合影响活性位点
  • 开关蛋白(switch proteins):如 G 蛋白,在 GTP/GDP 结合状态间切换

内在无序区域(Intrinsically Disordered Regions, IDRs)

Section titled “内在无序区域(Intrinsically Disordered Regions, IDRs)”

相当一部分蛋白含有没有固定三维结构的区域:

  • 特征:缺乏稳定二级结构,在 PDB 结构中常表现为缺失密度
  • 功能:参与调控、信号传导,提供结合多样性
  • 预测:可用 IUPred、PONDR 等工具预测无序区域

理解蛋白结构离不开实验技术的支撑:

方法原理优势局限
X射线晶体学晶体衍射高分辨率,适合大蛋白需要结晶
NMR核磁共振观察溶液状态动态蛋白大小受限
Cryo-EM冷冻电镜无需结晶,适合大复合体分辨率相对较低
SAXS小角散射低分辨率整体形状信息有限

这些实验方法为结构预测和验证提供了金标准数据。

  • Branden, C., & Tooze, J. (1999). Introduction to Protein Structure (2nd ed.). Garland Science.
  • Alberts, B., et al. (2015). Molecular Biology of the Cell (6th ed.). Chapter 3: Proteins.