质谱基础

快速概览

基于质谱的蛋白质组学通过测量肽段的质荷比（m/z）来推断蛋白质身份。核心流程包括：离子化、MS1 全扫描、MS2 碎裂谱获取，以及通过谱图重建或数据库搜索鉴定肽段序列。

理解 MS1（一级质谱）和 MS2（二级质谱）在蛋白质鉴定中的不同作用
掌握肽段碎裂产生的 b-ion 与 y-ion 的质量互补逻辑
了解肽段测序（Peptide Sequencing）作为路径搜索问题的数学定义
认识蛋白质识别从"手工组装"到"自动化数据库搜索"的演进

1. 是什么

质谱蛋白质组学流程：蛋白样本、酶解、LC 分离、质谱检测与肽段鉴定 — 基于质谱的蛋白质组学 “底向上” 策略流水线

串联质谱（Tandem Mass Spectrometry, MS/MS）是现代蛋白质组学的核心实验技术。其基本原理是通过测量带电肽段离子的质荷比（Mass-to-Charge Ratio, $m/z$ ）和碎片离子的质量分布，来推断蛋白质的氨基酸序列和修饰状态。

从信息流的角度，质谱实验产生的数据可以被抽象为：

$\text{Protein Sample} \xrightarrow{\text{digestion}} \text{Peptide Mixture} \xrightarrow{\text{MS instrument}} \{(m/z, \text{intensity})\} \text{ spectrum set}$

每一张 MS2 谱图本质上就是一个向量：在一系列 $m/z$ 值上记录的信号强度分布。生物信息学的任务就是从这个向量中解码出肽段的序列信息。

2. 为什么重要

质谱技术是大规模蛋白质鉴定和定量的唯一实用手段，其重要性体现在以下几个方面：

蛋白质组的唯一入口：与 DNA/RNA 不同，蛋白质不能被直接扩增和测序。质谱提供了从蛋白质混合物到序列信息的高通量通道，是连接”蛋白质组”和”计算分析”的桥梁。
翻译后修饰的检测能力：磷酸化、糖基化、乙酰化等翻译后修饰（Post-Translational Modification, PTM）在生命活动中扮演关键角色，而质谱是能够在组学水平上系统检测 PTM 的核心技术。
动态范围与灵敏度的持续突破：现代 Orbitrap 质谱仪的分辨率可超过 500,000（FWHM），质量精度达到亚 ppm 级别，使得检测低丰度调控蛋白成为可能。
推动系统生物学发展：大规模蛋白质组学数据与转录组学、代谢组学的整合，是构建全息细胞模型（Whole Cell Model）的关键。

3. 核心概念

3.1 为什么不直接测序蛋白质？

与 DNA 测序不同，直接对长蛋白质进行测序面临巨大挑战：

长度与结构：蛋白质通常由数百甚至上千个氨基酸组成，且具有复杂的二级和三级结构（如 $\alpha$ -螺旋、 $\beta$ -折叠）。
化学异质性：20 种标准氨基酸的化学性质差异巨大，且存在各种翻译后修饰，增加了分析复杂性。
动态范围：细胞内蛋白质浓度的差异可达 $10^6$ 倍以上，高丰度蛋白（如结构蛋白）会严重掩盖低丰度蛋白（如转录因子）的信号。

解决方案：采用”底向上”（Bottom-up）策略，也称鸟枪法蛋白质组学（Shotgun Proteomics）。先用蛋白酶（最常用的是胰蛋白酶 Trypsin）将蛋白质在特定的氨基酸位点（精氨酸 Arg 和赖氨酸 Lys 的 C 端）切成短小的肽段（Peptides），再通过质谱分析这些肽段。

胰蛋白酶酶切（Trypsin Digestion）: Trypsin 在 Arg 和 Lys 的 C 端切割，产生带有 C 端 Arg/Lys 的肽段。平均肽段长度约 7--25 个氨基酸残基，分子量在 800--3000 Da 之间，非常适合质谱分析。
质荷比（Mass-to-Charge Ratio, $m/z$）: 离子的质量与所带电荷数之比。质谱仪测量的是 $m/z$，而非纯质量。一个质量为 $M$ 的肽段携带 $z$ 个质子时，其 $m/z = (M + z cdot 1.0073) / z$。因此，同一个肽段会产生一系列 $z = 1, 2, 3, ...$ 的不同电荷态峰。
分辨率（Resolution）: 质谱仪区分相邻 $m/z$ 峰的能力，定义为 $R = m / Delta m$（FWHM）。高分辨率（如 60,000 或更高）能够精确区分质量非常接近的肽段，减少鉴定歧义。

3.2 串联质谱（Tandem MS/MS）流程

现代质谱仪的数据依赖采集（Data-Dependent Acquisition, DDA）模式按照以下循环工作：

MS1：前体扫描（Precursor Scan / Survey Scan）

对进入质谱仪的所有肽段离子进行全扫描，记录每个离子的 $m/z$ 和强度。

作用：确定样本中所有可检测肽段离子的分子量分布。
离子选择：从 MS1 谱图中选择强度最高的 $N$ 个离子（前体离子, Precursor Ion）作为后续 MS2 分析的候选。 $N$ 通常为 10—20，受仪器扫描速度限制。

MS2：碎片扫描（Fragment Scan）

将选定的前体离子通过碰撞诱导解离（Collision-Induced Dissociation, CID）、高能碰撞解离（Higher-energy Collisional Dissociation, HCD）或电子转移解离（Electron Transfer Dissociation, ETD）等方式碎裂。

作用：产生反映肽段内部氨基酸序列信息的碎片离子谱（Fragmentation Spectrum）。这是肽段测序的核心数据。
CID/HCD：沿肽段骨架的酰胺键断裂，产生 b-ion 和 y-ion 系列碎片。是最常用的碎裂方式。
ETD：通过电子转移引发断裂，保留 PTM 标签，特别适合翻译后修饰分析。

数据独立采集（Data-Independent Acquisition, DIA）

与 DDA 的”选择最强离子逐一碎裂”不同，DIA 模式（如 SWATH-MS）将整个 $m/z$ 范围划分为若干窗口，依次对所有窗口内的离子进行碎裂。优势在于不遗漏低丰度离子，数据可回溯；挑战在于 MS2 谱图中混合了多个前体离子的碎片，需要更复杂的解卷积算法。

3.3 肽段碎裂的数学模型

当肽段沿骨架的酰胺键碎裂时，会产生两类主要的碎片离子：

b-ion：包含 N 端（氨基端, Amino-terminal）的碎片。 $b_1, b_2, ..., b_{n-1}$ 。
y-ion：包含 C 端（羧基端, Carboxyl-terminal）的碎片。 $y_1, y_2, ..., y_{n-1}$ 。

对于一条由 $n$ 个氨基酸组成的肽段，在第 $i$ 个位置断裂时：

$b_i + y_{n-i} = M_{\text{peptide}} + M_{\text{H}_2\text{O}} + M_{\text{H}^+}$

其中 $M_{\text{H}_2\text{O}} \approx 18.0106$ Da。这种**质量互补性（Mass Complementarity）**是验证谱图真伪和辅助测序的关键直觉——如果一对 $b_i$ 和 $y_{n-i}$ 的质量之和恰好等于母离子质量加上水的质量，那么这对碎片极有可能是真实的。

此外，碎裂过程中还可能产生 a-ion（b-ion 丢失 CO）、中性丢失峰（如丢失磷酸基团或水分子的峰）以及亚氨离子（Immonium Ion，单个氨基酸的特征碎片）。

3.4 肽段测序问题（Peptide Sequencing Problem）

形式化定义：

给定：

实验测得的碎片质量多重集 $S = \{s_1, s_2, ..., s_k\}$
母离子质量 $M$
离子类型偏移 $\Delta$ （如 b-ion 需要加上质子质量 1.0073 Da）
氨基酸残基质量表 $\{m(A), m(R), m(N), ...\}$

寻找一个氨基酸序列 $P = a_1 a_2 ... a_n$ ，使得其产生的理论谱 $T(P)$ 与实验谱 $S$ 的匹配得分最大：

$P^* = \arg\max_{P} \text{Score}(T(P), S)$

图论转化：如果将碎片质量看作图的顶点，氨基酸残基质量看作有向边，那么肽段测序就转化为在谱图（Spectrum Graph） 这个有向无环图（DAG）中寻找一条从 $0$ 到 $M$ 的最优路径问题。每条路径对应一个候选肽段序列，路径的”权重”取决于该路径对应的碎片与实验谱的匹配程度。

这一转化使得我们可以用动态规划（Dynamic Programming）来高效求解。详见谱图（Spectrum Graphs）。

3.5 质谱仪类型概览

不同类型的质谱仪在分辨率、灵敏度和扫描速度之间做出不同的权衡：

质谱仪类型	分辨率	质量精度	扫描速度	典型应用
Ion Trap	低（~1,000—5,000）	中（0.1—0.5 Da）	快	高通量筛查、PTM 分析（ETD）
TOF (Time-of-Flight)	中（~10,000—40,000）	中（5—20 ppm）	快	MALDI 成像、定量蛋白质组学
Orbitrap	高（60,000—500,000+）	高（< 3 ppm）	中	精确定量、深度蛋白质组学
FT-ICR	极高（> 500,000）	极高（< 1 ppm）	慢	Top-down 蛋白质组学、复杂修饰分析

3.6 从 De Novo 测序到数据库搜索

蛋白质鉴定的计算方法经历了从手工到自动化的演进：

De Novo 测序：不依赖任何数据库，直接从谱图推断肽段序列。理论上最灵活，但对谱图质量要求极高，且计算复杂度高。在处理混合谱图或复杂修饰时容易出错。
数据库搜索（Database Search）：将候选肽段的序列限制在已知的蛋白质序列数据库中，通过评分算法找到最佳匹配。由于搜索空间大幅缩小，效率和鲁棒性显著提升，是目前最主流的鉴定策略。详见数据库搜索与 FDR。
混合策略：先用数据库搜索完成大部分鉴定，再用 De Novo 方法处理数据库搜索未命中的高质量谱图。

4. 应用场景

蛋白质鉴定与注释：对新物种或新组织进行蛋白质组注释，发现新的蛋白质编码基因或剪接变体。
差异定量蛋白质组学：比较疾病与正常组织、药物处理与对照之间蛋白质丰度的变化。
翻译后修饰组学：通过碎裂模式和特定富集策略，系统鉴定磷酸化、糖基化、泛素化等修饰位点。
蛋白质互作组学：结合免疫沉淀（Immunoprecipitation）与质谱（AP-MS），绘制蛋白质-蛋白质相互作用网络。
临床生物标志物发现：从体液（如血液、尿液）中筛选疾病特异性蛋白标志物。

常见误区

混淆质量与质荷比：
质谱仪测量的是 $m/z$ 而非纯质量。一个质量为 1000 Da 的肽段，如果携带 2 个电荷，其 $m/z = 501$。在解读谱图时，必须先确定离子的电荷态（Charge State），才能还原真实质量。大多数现代质谱软件可以自动识别电荷态，但在处理低质量精度数据或重叠同位素分布时，电荷态判定可能出错。
忽视同位素分布：
自然界的碳、氢、氮、氧等元素都存在重同位素（如 $^{13} ext{C}$）。一个含有 $n$ 个碳原子的肽段会呈现一个同位素包络（Isotopic Envelope），而非单个尖峰。在高分辨率谱图中，同位素分布的形状本身就是辅助鉴定的重要信息。如果忽略同位素效应，可能导致：
错误地将同位素峰识别为独立化合物。
在低分辨率谱图中误判电荷态。