跳转到内容

谱卷积与修饰鉴定

快速概览

谱卷积(Spectral Convolution)通过计算两个质谱间所有质量差的分布,揭示肽段间的修饰差异。与共享峰计数相比,谱卷积能够检测修饰肽段,是翻译后修饰(PTM)鉴定的核心算法工具。

  • 理解谱卷积的定义:两个谱间所有质量差的多重集合
  • 掌握谱卷积揭示修饰的原理:非零峰指示质量偏移
  • 了解谱卷积与共享峰计数的关系(卷积在零点的高度)
  • 认识谱卷积在修饰蛋白鉴定中的应用
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

背景

  • 大多数蛋白质在合成后会经历翻译后修饰(Post-Translational Modifications, PTM),如磷酸化、糖基化、乙酰化等
  • 蛋白质数据库中存储的是”标准”(未修饰)序列
  • 实际样本中的肽段可能带有修饰,导致其质谱与理论谱不同

问题定义(Modified Protein Identification)

  • 输入:蛋白质数据库、实验谱 SS、最大修饰数 kk
  • 输出:数据库中与 SS 最匹配的肽段(允许最多 kk 个修饰)

传统数据库搜索基于共享峰计数

  • 如果实验谱与理论谱完全相同,共享峰计数高
  • 如果肽段有修饰,共享峰计数急剧下降
  • 即使有单个修饰,许多匹配峰也会丢失

示例:肽段 GPFNA 的 b-ions:{58, 155, 302, 416}

如果 P 被磷酸化(+80 Da),实验谱变为:{58, 155+80=235, 302+80=382, 416+80=496}

共享峰计数 = 0(假设阈值内没有匹配)

但这两个谱显然相关!谱卷积正是为了捕捉这种隐藏的相似性。

给定两个质谱 S1S_1S2S_2谱卷积 S2S1S_2 \ominus S_1 定义为:

S2S1={s2s1:s1S1,s2S2}S_2 \ominus S_1 = \{s_2 - s_1 : s_1 \in S_1, s_2 \in S_2\}

这是多重集合(multiset),即相同值可以出现多次。

对于质量差 xx,其重数(multiplicity)为:

(S2S1)(x)={(s1,s2):s2s1=x,s1S1,s2S2}(S_2 \ominus S_1)(x) = |\{(s_1, s_2) : s_2 - s_1 = x, s_1 \in S_1, s_2 \in S_2\}|

情况谱卷积特征
相同肽段x=0x = 0 处有高峰(共享峰)
单修饰(质量差 δ\deltax=0x = 0x=δx = \delta 处有两个近似相等的峰
多修饰在多个 xx 值处有显著峰(0,δ1,δ2,δ1+δ20, \delta_1, \delta_2, \delta_1+\delta_2 等)

如果肽段 P2P_2P1P_1 的单修饰版本(修饰质量为 δ\delta):

  • P1P_1 的 N-terminal 碎片 PiP_iP2P_2 中对应质量偏移 +δ+\delta
  • P1P_1 的 C-terminal 碎片 PiP_{-i}P2P_2 中对应质量偏移 δ-\delta
  • 因此谱卷积在 x=0x = 0(未修饰部分)和 x=±δx = \pm\delta(修饰部分)都有峰

共享峰计数 = (S2S1)(0)(S_2 \ominus S_1)(0)

即谱卷积在零点的高度。共享峰计数只是谱卷积的一个特例!

SPECTRAL-CONVOLUTION(S₁, S₂):
convolution = 空的多重集合
for s₁ in S₁:
for s₂ in S₂:
convolution.add(s₂ - s₁)
return convolution

时间复杂度O(S1S2)O(|S_1| \cdot |S_2|)

空间复杂度O(S1S2)O(|S_1| \cdot |S_2|) 存储所有质量差

IDENTIFY-MODIFICATIONS(convolution, threshold):
modifications = []
for x in convolution.keys():
if convolution[x] > threshold:
modifications.append(x)
return modifications

阈值选择:

  • 基于背景噪声水平
  • 基于统计显著性(如 p-value)
  • 基于先验修饰知识

对于候选修饰质量 δ\delta

  • 检查 S2S_2 中是否存在与 S1S_1 偏移 δ\delta 的峰子集
  • 验证这些峰的位置是否符合肽段碎片的预期分布
  • 检查修饰质量是否对应已知的 PTM 质量

常见 PTM 质量:

修饰质量偏移(Da)
磷酸化(Phosphorylation)+79.966
糖基化(Glycosylation)+162.053(Hex)
乙酰化(Acetylation)+42.011
甲基化(Methylation)+14.015
氧化(Oxidation)+15.995

理论谱 S1S_1(肽段 GPFNA):

b-ion质量
b1b_1 (G)58
b2b_2 (GP)155
b3b_3 (GPF)302

实验谱 S2S_2(GPFNA + 磷酸化 @ P,+80 Da):

b-ion质量说明
b1b_1 (G)58未修饰
b2b_2 (GP*)235+80
b3b_3 (GPF*)382+80

谱卷积计算(部分):

s2s1s_2 - s_1重数来源
0158 - 58
802235 - 155, 382 - 302
1771235 - 58
3241382 - 58

结果:在 x=0x = 0(重数 1)和 x=80x = 80(重数 2)处有两个显著峰,提示 +80 Da 修饰(磷酸化)。

如果肽段有两个不同修饰(质量分别为 δ1\delta_1δ2\delta_2):

  • 谱卷积在 x=0,δ1,δ2,δ1+δ2x = 0, \delta_1, \delta_2, \delta_1 + \delta_2 处有峰
  • 峰高比例反映不同修饰组合的碎片数量
  • 通过分析峰模式可推断修饰数量和组合
  • 时间O(nm)O(n \cdot m),其中 n=S1n = |S_1|m=S2m = |S_2|
  • 空间O(nm)O(n \cdot m) 存储所有质量差

对于典型质谱(100-1000 个峰),朴素实现已足够快速。

  1. 质量分箱(Mass Binning)

    • 将质量值分箱到离散区间
    • 减少不同值数量,降低存储需求
  2. FFT 加速

    • 将谱图表示为质量轴上的函数
    • 使用快速傅里叶变换在 O(NlogN)O(N \log N) 时间内计算卷积
  3. 剪枝

    • 只考虑与已知修饰质量匹配的质量差
    • 基于先验知识减少计算
维度 谱卷积 谱对齐
**修饰检测** 全局修饰(所有位点相同偏移) 局部修饰(位点特异性偏移)
**输出** 质量偏移量 最优对齐路径
**复杂度** $O(n^2)$ $O(n^2 k)$
**修饰位点** 不直接提供 精确定位

实际应用

  1. 谱卷积:快速识别候选修饰质量
  2. 谱对齐:精确定位修饰位点
  3. 联合使用:修饰鉴定的完整流程
实验谱 S
数据库搜索(SEQUEST/Mascot)
低分匹配 → 谱卷积分析
识别候选修饰质量 δ₁, δ₂, ...
谱对齐精确定位修饰位点
修饰肽段鉴定报告
  1. 质量精度

    • 质谱误差可能导致误判修饰质量
    • 解决方案:设置质量容差,使用高分辨质谱
  2. 混合谱

    • 多个肽段共存产生复杂卷积
    • 解决方案:谱去卷积预处理
  3. 中性丢失

    • 某些修饰碎片会丢失修饰基团
    • 解决方案:包含丢失修饰的碎片类型
  4. 异构修饰(Isobaric Modifications):

    • 不同修饰可能有相同质量
    • 示例:+80 Da 可能是磷酸化或硫酸化
    • 解决方案:结合保留时间、碎片模式等额外信息

谱卷积方法由 Pavel PevznerZarir Mulyukov 于 2003 年提出,用于 MS/MS 数据中的修饰鉴定。该方法成为后续 MS-GF(Mass Spectrometry - Generating Function)、MODi 等修饰鉴定算法的基础。

谱卷积的核心贡献在于:

  • 避免穷举所有修饰组合的虚拟数据库
  • 直接从数据推断修饰存在
  • 为后续谱对齐算法提供候选修饰质量
  • Pevzner, P.A., et al. (2001). Efficient long-tailed recognition of spectra by superimposed almost continuous words. RECOMB, 140-149.
  • Pevzner, P.A., & Mulyukov, Z. (2003). Improving the capacity of the spectral convolution method for motif discovery. Bioinformatics, 19(4), 491-492.
  • Kim, S., et al. (2008). Spectral probabilities and generating functions of tandem mass spectra: a strike against decoy databases. Journal of Proteome Research, 7(8), 3354-3363.
  • Chalkley, R.J., & Clauser, K.R. (2012). Modification site localization scoring: strategies and performance. Molecular & Cellular Proteomics, 11(5), 3-14.