跳转到内容

结构生物信息学

结构生物信息学(Structural Bioinformatics)是研究生物大分子三维结构的计算学科。它回答的核心问题是:给定分子序列,如何预测其结构?如何比较不同结构?结构如何解释功能?

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

结构生物信息学处于序列层功能层之间的关键连接点:

序列层 ──→ 结构层 ──→ 功能层
│ │ │
▼ ▼ ▼
基因组 结构生物信息学 通路/表型(本章主题)

理解这一点很重要:结构既是序列信息的物理实现,又是功能执行的三维基础。这使得结构生物信息学成为连接”基因型”与”表型”的桥梁学科。

结构生物信息学的发展与实验技术密切相关:

  • 1958:X 射线晶体学首次解析肌红蛋白结构(Kendrew),开启蛋白质结构时代
  • 1980s:NMR 开始用于蛋白质结构测定,提供溶液状态信息
  • 1994:CASP 竞赛启动,系统评估计算方法进展
  • 2013:冷冻电镜(Cryo-EM)技术突破,“分辨率革命”开始
  • 2020:AlphaFold 2 在 CASP14 中达到实验精度,计算方法取得历史性突破

与实验技术并行的是计算方法的发展:

  1. 比较建模时代(1990s-2000s):依赖已知同源结构,如 SWISS-MODEL
  2. 从头预测尝试(2000s-2010s):物理能量函数 + 采样,如 Rosetta
  3. 共进化分析时代(2010s):利用 MSA 中的共进化信号预测接触
  4. 深度学习时代(2018-至今):AlphaFold 等端到端方法

本章围绕三个递进层次组织:

理解蛋白结构的层次组织(一级到四级)、功能模块(domain 与 motif)、以及动态性(构象变化与无序区域)。这是后续所有结构分析的基础。

2. 结构预测:AlphaFold 与现代方法

Section titled “2. 结构预测:AlphaFold 与现代方法”

深入理解结构预测的核心思想:从序列和进化信息学习折叠的几何规律。重点包括:

  • 输入:MSA 与共进化信号的作用
  • 输出:如何解读 pLDDT 和 PAE 等置信度指标
  • 局限:预测与实验结构的边界在哪里

学习量化结构相似性的方法:

  • 指标:RMSD、TM-score 的数学定义与应用场景
  • 算法:结构比对的计算原理
  • 分类:SCOP、CATH 等 fold 数据库的层次体系

结构生物信息学的重要性体现在:

远缘同源蛋白可能序列差异很大(< 30% 相似),但折叠方式相似。这导致:

  • 序列比对失败的案例,结构比对可能成功
  • 功能预测需要结合结构信息
  • 药物设计依赖精确的三维构象

AlphaFold 使计算结构预测从专家工具变成常规资源

  • 结构空白大幅减少(AlphaFold DB 覆盖超过 2 亿个结构)
  • 实验设计可以基于结构假设
  • 大规模结构分析成为可能

很多生物学问题需要三维视角:

  • 致病变异的位置是否在关键结构区域?
  • 突变如何影响稳定性或相互作用?
  • 活性位点的几何约束是什么?

阅读本章前,建议具备以下基础:

完成本章后,可以进一步学习:

  • Branden, C., & Tooze, J. (1999). Introduction to Protein Structure (2nd ed.). Garland Science.
  • Fersht, A. (1999). Structure and Mechanism in Protein Science. W.H. Freeman.