谱卷积与修饰鉴定
谱卷积(Spectral Convolution)通过计算两个质谱间所有质量差的分布,揭示肽段间的修饰差异。与共享峰计数相比,谱卷积能够检测修饰肽段,是翻译后修饰(PTM)鉴定的核心算法工具。
- 理解谱卷积的定义:两个谱间所有质量差的多重集合
- 掌握谱卷积揭示修饰的原理:非零峰指示质量偏移
- 了解谱卷积与共享峰计数的关系(卷积在零点的高度)
- 认识谱卷积在修饰蛋白鉴定中的应用
修饰蛋白鉴定问题
Section titled “修饰蛋白鉴定问题”背景:
- 大多数蛋白质在合成后会经历翻译后修饰(Post-Translational Modifications, PTM),如磷酸化、糖基化、乙酰化等
- 蛋白质数据库中存储的是”标准”(未修饰)序列
- 实际样本中的肽段可能带有修饰,导致其质谱与理论谱不同
问题定义(Modified Protein Identification):
- 输入:蛋白质数据库、实验谱 、最大修饰数
- 输出:数据库中与 最匹配的肽段(允许最多 个修饰)
传统方法的局限
Section titled “传统方法的局限”传统数据库搜索基于共享峰计数:
- 如果实验谱与理论谱完全相同,共享峰计数高
- 如果肽段有修饰,共享峰计数急剧下降
- 即使有单个修饰,许多匹配峰也会丢失
示例:肽段 GPFNA 的 b-ions:{58, 155, 302, 416}
如果 P 被磷酸化(+80 Da),实验谱变为:{58, 155+80=235, 302+80=382, 416+80=496}
共享峰计数 = 0(假设阈值内没有匹配)
但这两个谱显然相关!谱卷积正是为了捕捉这种隐藏的相似性。
给定两个质谱 和 ,谱卷积 定义为:
这是多重集合(multiset),即相同值可以出现多次。
对于质量差 ,其重数(multiplicity)为:
| 情况 | 谱卷积特征 |
|---|---|
| 相同肽段 | 在 处有高峰(共享峰) |
| 单修饰(质量差 ) | 在 和 处有两个近似相等的峰 |
| 多修饰 | 在多个 值处有显著峰( 等) |
修饰检测原理
Section titled “修饰检测原理”如果肽段 是 的单修饰版本(修饰质量为 ):
- 的 N-terminal 碎片 在 中对应质量偏移
- 的 C-terminal 碎片 在 中对应质量偏移
- 因此谱卷积在 (未修饰部分)和 (修饰部分)都有峰
与共享峰计数的关系
Section titled “与共享峰计数的关系”共享峰计数 =
即谱卷积在零点的高度。共享峰计数只是谱卷积的一个特例!
1. 计算谱卷积
Section titled “1. 计算谱卷积”SPECTRAL-CONVOLUTION(S₁, S₂): convolution = 空的多重集合 for s₁ in S₁: for s₂ in S₂: convolution.add(s₂ - s₁) return convolution时间复杂度:
空间复杂度: 存储所有质量差
2. 识别显著峰
Section titled “2. 识别显著峰”IDENTIFY-MODIFICATIONS(convolution, threshold): modifications = [] for x in convolution.keys(): if convolution[x] > threshold: modifications.append(x) return modifications阈值选择:
- 基于背景噪声水平
- 基于统计显著性(如 p-value)
- 基于先验修饰知识
3. 验证候选修饰
Section titled “3. 验证候选修饰”对于候选修饰质量 :
- 检查 中是否存在与 偏移 的峰子集
- 验证这些峰的位置是否符合肽段碎片的预期分布
- 检查修饰质量是否对应已知的 PTM 质量
常见 PTM 质量:
| 修饰 | 质量偏移(Da) |
|---|---|
| 磷酸化(Phosphorylation) | +79.966 |
| 糖基化(Glycosylation) | +162.053(Hex) |
| 乙酰化(Acetylation) | +42.011 |
| 甲基化(Methylation) | +14.015 |
| 氧化(Oxidation) | +15.995 |
理论谱 (肽段 GPFNA):
| b-ion | 质量 |
|---|---|
| (G) | 58 |
| (GP) | 155 |
| (GPF) | 302 |
实验谱 (GPFNA + 磷酸化 @ P,+80 Da):
| b-ion | 质量 | 说明 |
|---|---|---|
| (G) | 58 | 未修饰 |
| (GP*) | 235 | +80 |
| (GPF*) | 382 | +80 |
谱卷积计算(部分):
| 重数 | 来源 | |
|---|---|---|
| 0 | 1 | 58 - 58 |
| 80 | 2 | 235 - 155, 382 - 302 |
| 177 | 1 | 235 - 58 |
| 324 | 1 | 382 - 58 |
| … | … | … |
结果:在 (重数 1)和 (重数 2)处有两个显著峰,提示 +80 Da 修饰(磷酸化)。
如果肽段有两个不同修饰(质量分别为 和 ):
- 谱卷积在 处有峰
- 峰高比例反映不同修饰组合的碎片数量
- 通过分析峰模式可推断修饰数量和组合
算法复杂度与优化
Section titled “算法复杂度与优化”- 时间:,其中 ,
- 空间: 存储所有质量差
对于典型质谱(100-1000 个峰),朴素实现已足够快速。
-
质量分箱(Mass Binning):
- 将质量值分箱到离散区间
- 减少不同值数量,降低存储需求
-
FFT 加速:
- 将谱图表示为质量轴上的函数
- 使用快速傅里叶变换在 时间内计算卷积
-
剪枝:
- 只考虑与已知修饰质量匹配的质量差
- 基于先验知识减少计算
谱卷积 vs 谱对齐
Section titled “谱卷积 vs 谱对齐”| 维度 | 谱卷积 | 谱对齐 |
|---|---|---|
| **修饰检测** | 全局修饰(所有位点相同偏移) | 局部修饰(位点特异性偏移) |
| **输出** | 质量偏移量 | 最优对齐路径 |
| **复杂度** | $O(n^2)$ | $O(n^2 k)$ |
| **修饰位点** | 不直接提供 | 精确定位 |
实际应用:
- 谱卷积:快速识别候选修饰质量
- 谱对齐:精确定位修饰位点
- 联合使用:修饰鉴定的完整流程
修饰蛋白鉴定流程
Section titled “修饰蛋白鉴定流程”实验谱 S ↓数据库搜索(SEQUEST/Mascot) ↓低分匹配 → 谱卷积分析 ↓识别候选修饰质量 δ₁, δ₂, ... ↓谱对齐精确定位修饰位点 ↓修饰肽段鉴定报告局限性与注意事项
Section titled “局限性与注意事项”-
质量精度:
- 质谱误差可能导致误判修饰质量
- 解决方案:设置质量容差,使用高分辨质谱
-
混合谱:
- 多个肽段共存产生复杂卷积
- 解决方案:谱去卷积预处理
-
中性丢失:
- 某些修饰碎片会丢失修饰基团
- 解决方案:包含丢失修饰的碎片类型
-
异构修饰(Isobaric Modifications):
- 不同修饰可能有相同质量
- 示例:+80 Da 可能是磷酸化或硫酸化
- 解决方案:结合保留时间、碎片模式等额外信息
谱卷积方法由 Pavel Pevzner 和 Zarir Mulyukov 于 2003 年提出,用于 MS/MS 数据中的修饰鉴定。该方法成为后续 MS-GF(Mass Spectrometry - Generating Function)、MODi 等修饰鉴定算法的基础。
谱卷积的核心贡献在于:
- 避免穷举所有修饰组合的虚拟数据库
- 直接从数据推断修饰存在
- 为后续谱对齐算法提供候选修饰质量
- Pevzner, P.A., et al. (2001). Efficient long-tailed recognition of spectra by superimposed almost continuous words. RECOMB, 140-149.
- Pevzner, P.A., & Mulyukov, Z. (2003). Improving the capacity of the spectral convolution method for motif discovery. Bioinformatics, 19(4), 491-492.
- Kim, S., et al. (2008). Spectral probabilities and generating functions of tandem mass spectra: a strike against decoy databases. Journal of Proteome Research, 7(8), 3354-3363.
- Chalkley, R.J., & Clauser, K.R. (2012). Modification site localization scoring: strategies and performance. Molecular & Cellular Proteomics, 11(5), 3-14.