跳转到内容

质谱基础

快速概览

基于质谱的蛋白质组学通过测量肽段的质荷比(m/z)来推断蛋白质身份。核心流程包括:离子化、MS1 全扫描、MS2 碎裂谱获取,以及通过谱图重建或数据库搜索鉴定肽段序列。

  • 理解 MS1(一级质谱)和 MS2(二级质谱)在蛋白质鉴定中的不同作用
  • 掌握肽段碎裂产生的 b-ion 与 y-ion 的质量互补逻辑
  • 了解肽段测序(Peptide Sequencing)作为路径搜索问题的数学定义
  • 认识蛋白质识别从"手工组装"到"自动化数据库搜索"的演进
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

质谱蛋白质组学流程:蛋白样本、酶解、LC 分离、质谱检测与肽段鉴定
基于质谱的蛋白质组学 “底向上” 策略流水线

串联质谱(Tandem Mass Spectrometry, MS/MS)是现代蛋白质组学的核心实验技术。其基本原理是通过测量带电肽段离子的质荷比(Mass-to-Charge Ratio, m/zm/z)和碎片离子的质量分布,来推断蛋白质的氨基酸序列和修饰状态。

从信息流的角度,质谱实验产生的数据可以被抽象为:

蛋白质样本酶解肽段混合物质谱仪{(m/z,intensity)} 谱图集合\text{蛋白质样本} \xrightarrow{\text{酶解}} \text{肽段混合物} \xrightarrow{\text{质谱仪}} \{(m/z, \text{intensity})\} \text{ 谱图集合}

每一张 MS2 谱图本质上就是一个向量:在一系列 m/zm/z 值上记录的信号强度分布。生物信息学的任务就是从这个向量中解码出肽段的序列信息。

质谱技术是大规模蛋白质鉴定和定量的唯一实用手段,其重要性体现在以下几个方面:

  • 蛋白质组的唯一入口:与 DNA/RNA 不同,蛋白质不能被直接扩增和测序。质谱提供了从蛋白质混合物到序列信息的高通量通道,是连接”蛋白质组”和”计算分析”的桥梁。
  • 翻译后修饰的检测能力:磷酸化、糖基化、乙酰化等翻译后修饰(Post-Translational Modification, PTM)在生命活动中扮演关键角色,而质谱是能够在组学水平上系统检测 PTM 的核心技术。
  • 动态范围与灵敏度的持续突破:现代 Orbitrap 质谱仪的分辨率可超过 500,000(FWHM),质量精度达到亚 ppm 级别,使得检测低丰度调控蛋白成为可能。
  • 推动系统生物学发展:大规模蛋白质组学数据与转录组学、代谢组学的整合,是构建全息细胞模型(Whole Cell Model)的关键。

与 DNA 测序不同,直接对长蛋白质进行测序面临巨大挑战:

  • 长度与结构:蛋白质通常由数百甚至上千个氨基酸组成,且具有复杂的二级和三级结构(如 α\alpha-螺旋、β\beta-折叠)。
  • 化学异质性:20 种标准氨基酸的化学性质差异巨大,且存在各种翻译后修饰,增加了分析复杂性。
  • 动态范围:细胞内蛋白质浓度的差异可达 10610^6 倍以上,高丰度蛋白(如结构蛋白)会严重掩盖低丰度蛋白(如转录因子)的信号。

解决方案:采用”底向上”(Bottom-up)策略,也称鸟枪法蛋白质组学(Shotgun Proteomics)。先用蛋白酶(最常用的是胰蛋白酶 Trypsin)将蛋白质在特定的氨基酸位点(精氨酸 Arg 和赖氨酸 Lys 的 C 端)切成短小的肽段(Peptides),再通过质谱分析这些肽段。

胰蛋白酶酶切(Trypsin Digestion)
Trypsin 在 Arg 和 Lys 的 C 端切割,产生带有 C 端 Arg/Lys 的肽段。平均肽段长度约 7--25 个氨基酸残基,分子量在 800--3000 Da 之间,非常适合质谱分析。
质荷比(Mass-to-Charge Ratio, $m/z$)
离子的质量与所带电荷数之比。质谱仪测量的是 $m/z$,而非纯质量。一个质量为 $M$ 的肽段携带 $z$ 个质子时,其 $m/z = (M + z cdot 1.0073) / z$。因此,同一个肽段会产生一系列 $z = 1, 2, 3, ...$ 的不同电荷态峰。
分辨率(Resolution)
质谱仪区分相邻 $m/z$ 峰的能力,定义为 $R = m / Delta m$(FWHM)。高分辨率(如 60,000 或更高)能够精确区分质量非常接近的肽段,减少鉴定歧义。

现代质谱仪的数据依赖采集(Data-Dependent Acquisition, DDA)模式按照以下循环工作:

MS1:前体扫描(Precursor Scan / Survey Scan)

Section titled “MS1:前体扫描(Precursor Scan / Survey Scan)”

对进入质谱仪的所有肽段离子进行全扫描,记录每个离子的 m/zm/z 和强度。

  • 作用:确定样本中所有可检测肽段离子的分子量分布。
  • 离子选择:从 MS1 谱图中选择强度最高的 NN 个离子(前体离子, Precursor Ion)作为后续 MS2 分析的候选。NN 通常为 10—20,受仪器扫描速度限制。

将选定的前体离子通过碰撞诱导解离(Collision-Induced Dissociation, CID)、高能碰撞解离(Higher-energy Collisional Dissociation, HCD)或电子转移解离(Electron Transfer Dissociation, ETD)等方式碎裂。

  • 作用:产生反映肽段内部氨基酸序列信息的碎片离子谱(Fragmentation Spectrum)。这是肽段测序的核心数据。
  • CID/HCD:沿肽段骨架的酰胺键断裂,产生 b-ion 和 y-ion 系列碎片。是最常用的碎裂方式。
  • ETD:通过电子转移引发断裂,保留 PTM 标签,特别适合翻译后修饰分析。

数据独立采集(Data-Independent Acquisition, DIA)

Section titled “数据独立采集(Data-Independent Acquisition, DIA)”

与 DDA 的”选择最强离子逐一碎裂”不同,DIA 模式(如 SWATH-MS)将整个 m/zm/z 范围划分为若干窗口,依次对所有窗口内的离子进行碎裂。优势在于不遗漏低丰度离子,数据可回溯;挑战在于 MS2 谱图中混合了多个前体离子的碎片,需要更复杂的解卷积算法。

当肽段沿骨架的酰胺键碎裂时,会产生两类主要的碎片离子:

  • b-ion:包含 N 端(氨基端, Amino-terminal)的碎片。b1,b2,...,bn1b_1, b_2, ..., b_{n-1}
  • y-ion:包含 C 端(羧基端, Carboxyl-terminal)的碎片。y1,y2,...,yn1y_1, y_2, ..., y_{n-1}

对于一条由 nn 个氨基酸组成的肽段,在第 ii 个位置断裂时:

bi+yni=Mpeptide+MH2O+MH+b_i + y_{n-i} = M_{\text{peptide}} + M_{\text{H}_2\text{O}} + M_{\text{H}^+}

其中 MH2O18.0106M_{\text{H}_2\text{O}} \approx 18.0106 Da。这种**质量互补性(Mass Complementarity)**是验证谱图真伪和辅助测序的关键直觉——如果一对 bib_iyniy_{n-i} 的质量之和恰好等于母离子质量加上水的质量,那么这对碎片极有可能是真实的。

此外,碎裂过程中还可能产生 a-ion(b-ion 丢失 CO)、中性丢失峰(如丢失磷酸基团或水分子的峰)以及亚氨离子(Immonium Ion,单个氨基酸的特征碎片)。

3.4 肽段测序问题(Peptide Sequencing Problem)

Section titled “3.4 肽段测序问题(Peptide Sequencing Problem)”

形式化定义

给定:

  • 实验测得的碎片质量多重集 S={s1,s2,...,sk}S = \{s_1, s_2, ..., s_k\}
  • 母离子质量 MM
  • 离子类型偏移 Δ\Delta(如 b-ion 需要加上质子质量 1.0073 Da)
  • 氨基酸残基质量表 {m(A),m(R),m(N),...}\{m(A), m(R), m(N), ...\}

寻找一个氨基酸序列 P=a1a2...anP = a_1 a_2 ... a_n,使得其产生的理论谱 T(P)T(P) 与实验谱 SS 的匹配得分最大:

P=argmaxPScore(T(P),S)P^* = \arg\max_{P} \text{Score}(T(P), S)

图论转化:如果将碎片质量看作图的顶点,氨基酸残基质量看作有向边,那么肽段测序就转化为在谱图(Spectrum Graph) 这个有向无环图(DAG)中寻找一条从 00MM 的最优路径问题。每条路径对应一个候选肽段序列,路径的”权重”取决于该路径对应的碎片与实验谱的匹配程度。

这一转化使得我们可以用动态规划(Dynamic Programming)来高效求解。详见 谱图(Spectrum Graphs)

不同类型的质谱仪在分辨率、灵敏度和扫描速度之间做出不同的权衡:

质谱仪类型分辨率质量精度扫描速度典型应用
Ion Trap低(~1,000—5,000)中(0.1—0.5 Da)高通量筛查、PTM 分析(ETD)
TOF (Time-of-Flight)中(~10,000—40,000)中(5—20 ppm)MALDI 成像、定量蛋白质组学
Orbitrap高(60,000—500,000+)高(< 3 ppm)精确定量、深度蛋白质组学
FT-ICR极高(> 500,000)极高(< 1 ppm)Top-down 蛋白质组学、复杂修饰分析

蛋白质鉴定的计算方法经历了从手工到自动化的演进:

  • De Novo 测序:不依赖任何数据库,直接从谱图推断肽段序列。理论上最灵活,但对谱图质量要求极高,且计算复杂度高。在处理混合谱图或复杂修饰时容易出错。
  • 数据库搜索(Database Search):将候选肽段的序列限制在已知的蛋白质序列数据库中,通过评分算法找到最佳匹配。由于搜索空间大幅缩小,效率和鲁棒性显著提升,是目前最主流的鉴定策略。详见 数据库搜索与 FDR
  • 混合策略:先用数据库搜索完成大部分鉴定,再用 De Novo 方法处理数据库搜索未命中的高质量谱图。
  • 蛋白质鉴定与注释:对新物种或新组织进行蛋白质组注释,发现新的蛋白质编码基因或剪接变体。
  • 差异定量蛋白质组学:比较疾病与正常组织、药物处理与对照之间蛋白质丰度的变化。
  • 翻译后修饰组学:通过碎裂模式和特定富集策略,系统鉴定磷酸化、糖基化、泛素化等修饰位点。
  • 蛋白质互作组学:结合免疫沉淀(Immunoprecipitation)与质谱(AP-MS),绘制蛋白质-蛋白质相互作用网络。
  • 临床生物标志物发现:从体液(如血液、尿液)中筛选疾病特异性蛋白标志物。