质谱基础
基于质谱的蛋白质组学通过测量肽段的质荷比(m/z)来推断蛋白质身份。核心流程包括:离子化、MS1 全扫描、MS2 碎裂谱获取,以及通过谱图重建或数据库搜索鉴定肽段序列。
- 理解 MS1(一级质谱)和 MS2(二级质谱)在蛋白质鉴定中的不同作用
- 掌握肽段碎裂产生的 b-ion 与 y-ion 的质量互补逻辑
- 了解肽段测序(Peptide Sequencing)作为路径搜索问题的数学定义
- 认识蛋白质识别从"手工组装"到"自动化数据库搜索"的演进
1. 是什么
Section titled “1. 是什么”串联质谱(Tandem Mass Spectrometry, MS/MS)是现代蛋白质组学的核心实验技术。其基本原理是通过测量带电肽段离子的质荷比(Mass-to-Charge Ratio, )和碎片离子的质量分布,来推断蛋白质的氨基酸序列和修饰状态。
从信息流的角度,质谱实验产生的数据可以被抽象为:
每一张 MS2 谱图本质上就是一个向量:在一系列 值上记录的信号强度分布。生物信息学的任务就是从这个向量中解码出肽段的序列信息。
2. 为什么重要
Section titled “2. 为什么重要”质谱技术是大规模蛋白质鉴定和定量的唯一实用手段,其重要性体现在以下几个方面:
- 蛋白质组的唯一入口:与 DNA/RNA 不同,蛋白质不能被直接扩增和测序。质谱提供了从蛋白质混合物到序列信息的高通量通道,是连接”蛋白质组”和”计算分析”的桥梁。
- 翻译后修饰的检测能力:磷酸化、糖基化、乙酰化等翻译后修饰(Post-Translational Modification, PTM)在生命活动中扮演关键角色,而质谱是能够在组学水平上系统检测 PTM 的核心技术。
- 动态范围与灵敏度的持续突破:现代 Orbitrap 质谱仪的分辨率可超过 500,000(FWHM),质量精度达到亚 ppm 级别,使得检测低丰度调控蛋白成为可能。
- 推动系统生物学发展:大规模蛋白质组学数据与转录组学、代谢组学的整合,是构建全息细胞模型(Whole Cell Model)的关键。
3. 核心概念
Section titled “3. 核心概念”3.1 为什么不直接测序蛋白质?
Section titled “3.1 为什么不直接测序蛋白质?”与 DNA 测序不同,直接对长蛋白质进行测序面临巨大挑战:
- 长度与结构:蛋白质通常由数百甚至上千个氨基酸组成,且具有复杂的二级和三级结构(如 -螺旋、-折叠)。
- 化学异质性:20 种标准氨基酸的化学性质差异巨大,且存在各种翻译后修饰,增加了分析复杂性。
- 动态范围:细胞内蛋白质浓度的差异可达 倍以上,高丰度蛋白(如结构蛋白)会严重掩盖低丰度蛋白(如转录因子)的信号。
解决方案:采用”底向上”(Bottom-up)策略,也称鸟枪法蛋白质组学(Shotgun Proteomics)。先用蛋白酶(最常用的是胰蛋白酶 Trypsin)将蛋白质在特定的氨基酸位点(精氨酸 Arg 和赖氨酸 Lys 的 C 端)切成短小的肽段(Peptides),再通过质谱分析这些肽段。
- 胰蛋白酶酶切(Trypsin Digestion)
- Trypsin 在 Arg 和 Lys 的 C 端切割,产生带有 C 端 Arg/Lys 的肽段。平均肽段长度约 7--25 个氨基酸残基,分子量在 800--3000 Da 之间,非常适合质谱分析。
- 质荷比(Mass-to-Charge Ratio, $m/z$)
- 离子的质量与所带电荷数之比。质谱仪测量的是 $m/z$,而非纯质量。一个质量为 $M$ 的肽段携带 $z$ 个质子时,其 $m/z = (M + z cdot 1.0073) / z$。因此,同一个肽段会产生一系列 $z = 1, 2, 3, ...$ 的不同电荷态峰。
- 分辨率(Resolution)
- 质谱仪区分相邻 $m/z$ 峰的能力,定义为 $R = m / Delta m$(FWHM)。高分辨率(如 60,000 或更高)能够精确区分质量非常接近的肽段,减少鉴定歧义。
3.2 串联质谱(Tandem MS/MS) 流程
Section titled “3.2 串联质谱(Tandem MS/MS) 流程”现代质谱仪的数据依赖采集(Data-Dependent Acquisition, DDA)模式按照以下循环工作:
MS1:前体扫描(Precursor Scan / Survey Scan)
Section titled “MS1:前体扫描(Precursor Scan / Survey Scan)”对进入质谱仪的所有肽段离子进行全扫描,记录每个离子的 和强度。
- 作用:确定样本中所有可检测肽段离子的分子量分布。
- 离子选择:从 MS1 谱图中选择强度最高的 个离子(前体离子, Precursor Ion)作为后续 MS2 分析的候选。 通常为 10—20,受仪器扫描速度限制。
MS2:碎片扫描(Fragment Scan)
Section titled “MS2:碎片扫描(Fragment Scan)”将选定的前体离子通过碰撞诱导解离(Collision-Induced Dissociation, CID)、高能碰撞解离(Higher-energy Collisional Dissociation, HCD)或电子转移解离(Electron Transfer Dissociation, ETD)等方式碎裂。
- 作用:产生反映肽段内部氨基酸序列信息的碎片离子谱(Fragmentation Spectrum)。这是肽段测序的核心数据。
- CID/HCD:沿肽段骨架的酰胺键断裂,产生 b-ion 和 y-ion 系列碎片。是最常用的碎裂方式。
- ETD:通过电子转移引发断裂,保留 PTM 标签,特别适合翻译后修饰分析。
数据独立采集(Data-Independent Acquisition, DIA)
Section titled “数据独立采集(Data-Independent Acquisition, DIA)”与 DDA 的”选择最强离子逐一碎裂”不同,DIA 模式(如 SWATH-MS)将整个 范围划分为若干窗口,依次对所有窗口内的离子进行碎裂。优势在于不遗漏低丰度离子,数据可回溯;挑战在于 MS2 谱图中混合了多个前体离子的碎片,需要更复杂的解卷积算法。
3.3 肽段碎裂的数学模型
Section titled “3.3 肽段碎裂的数学模型”当肽段沿骨架的酰胺键碎裂时,会产生两类主要的碎片离子:
- b-ion:包含 N 端(氨基端, Amino-terminal)的碎片。。
- y-ion:包含 C 端(羧基端, Carboxyl-terminal)的碎片。。
对于一条由 个氨基酸组成的肽段,在第 个位置断裂时:
其中 Da。这种**质量互补性(Mass Complementarity)**是验证谱图真伪和辅助测序的关键直觉——如果一对 和 的质量之和恰好等于母离子质量加上水的质量,那么这对碎片极有可能是真实的。
此外,碎裂过程中还可能产生 a-ion(b-ion 丢失 CO)、中性丢失峰(如丢失磷酸基团或水分子的峰)以及亚氨离子(Immonium Ion,单个氨基酸的特征碎片)。
3.4 肽段测序问题(Peptide Sequencing Problem)
Section titled “3.4 肽段测序问题(Peptide Sequencing Problem)”形式化定义:
给定:
- 实验测得的碎片质量多重集
- 母离子质量
- 离子类型偏移 (如 b-ion 需要加上质子质量 1.0073 Da)
- 氨基酸残基质量表
寻找一个氨基酸序列 ,使得其产生的理论谱 与实验谱 的匹配得分最大:
图论转化:如果将碎片质量看作图的顶点,氨基酸残基质量看作有向边,那么肽段测序就转化为在谱图(Spectrum Graph) 这个有向无环图(DAG)中寻找一条从 到 的最优路径问题。每条路径对应一个候选肽段序列,路径的”权重”取决于该路径对应的碎片与实验谱的匹配程度。
这一转化使得我们可以用动态规划(Dynamic Programming)来高效求解。详见 谱图(Spectrum Graphs)。
3.5 质谱仪类型概览
Section titled “3.5 质谱仪类型概览”不同类型的质谱仪在分辨率、灵敏度和扫描速度之间做出不同的权衡:
| 质谱仪类型 | 分辨率 | 质量精度 | 扫描速度 | 典型应用 |
|---|---|---|---|---|
| Ion Trap | 低(~1,000—5,000) | 中(0.1—0.5 Da) | 快 | 高通量筛查、PTM 分析(ETD) |
| TOF (Time-of-Flight) | 中(~10,000—40,000) | 中(5—20 ppm) | 快 | MALDI 成像、定量蛋白质组学 |
| Orbitrap | 高(60,000—500,000+) | 高(< 3 ppm) | 中 | 精确定量、深度蛋白质组学 |
| FT-ICR | 极高(> 500,000) | 极高(< 1 ppm) | 慢 | Top-down 蛋白质组学、复杂修饰分析 |
3.6 从 De Novo 测序到数据库搜索
Section titled “3.6 从 De Novo 测序到数据库搜索”蛋白质鉴定的计算方法经历了从手工到自动化的演进:
- De Novo 测序:不依赖任何数据库,直接从谱图推断肽段序列。理论上最灵活,但对谱图质量要求极高,且计算复杂度高。在处理混合谱图或复杂修饰时容易出错。
- 数据库搜索(Database Search):将候选肽段的序列限制在已知的蛋白质序列数据库中,通过评分算法找到最佳匹配。由于搜索空间大幅缩小,效率和鲁棒性显著提升,是目前最主流的鉴定策略。详见 数据库搜索与 FDR。
- 混合策略:先用数据库搜索完成大部分鉴定,再用 De Novo 方法处理数据库搜索未命中的高质量谱图。
4. 应用场景
Section titled “4. 应用场景”- 蛋白质鉴定与注释:对新物种或新组织进行蛋白质组注释,发现新的蛋白质编码基因或剪接变体。
- 差异定量蛋白质组学:比较疾病与正常组织、药物处理与对照之间蛋白质丰度的变化。
- 翻译后修饰组学:通过碎裂模式和特定富集策略,系统鉴定磷酸化、糖基化、泛素化等修饰位点。
- 蛋白质互作组学:结合免疫沉淀(Immunoprecipitation)与质谱(AP-MS),绘制蛋白质-蛋白质相互作用网络。
- 临床生物标志物发现:从体液(如血液、尿液)中筛选疾病特异性蛋白标志物。