跳转到内容

数据库搜索与 FDR

快速概览

数据库搜索是目前蛋白质鉴定最常用的方法。本章介绍肽段-谱图匹配(PSM)的概念、常用评分算法、通过 Target-Decoy 策略控制错误发现率(FDR)的统计方法,以及如何处理带有修饰的肽段。

  • 理解肽段-谱图匹配(PSM) 作为蛋白质鉴定的基本单位
  • 掌握共享峰计数、相关系数(XCorr) 与概率评分的原理
  • 掌握 Target-Decoy 策略在估计假阳性率中的应用
  • 了解基于"虚拟数据库"的修饰肽段搜索挑战
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

肽段-谱图匹配(PSM)示意:实验 MS2 谱图与理论谱图的比对打分
肽段-谱图匹配(Peptide-Spectrum Match, PSM):实验谱图与理论谱图的比对打分

数据库搜索(Database Search)是质谱蛋白质组学中最核心的计算方法,用于将实验获得的 MS2 碎片谱图与已知蛋白质序列数据库进行匹配,从而鉴定样本中存在的肽段和蛋白质。

其核心逻辑是:给定一张实验 MS2 谱图和一个蛋白质序列数据库,从中找到”最可能产生这张谱图的肽段序列”。与 De Novo 测序(不依赖数据库、从谱图直接推断序列)不同,数据库搜索将候选肽段的空间限制在已知蛋白质序列的酶切产物中,从而在效率和鲁棒性之间取得了优秀的平衡。

在蛋白质组学实验中,一台质谱仪在数小时内可以产生数百万张 MS2 谱图。生物信息学面临的核心问题是:

  1. 大规模匹配:如何高效地将每张谱图与数据库中可能数百万个候选肽段进行比较?
  2. 匹配质量评估:如何衡量一个肽段与谱图的匹配”好到什么程度”?如何区分真实匹配和随机巧合?
  3. 错误率控制:在数百万次比较中,即便每次比较的假阳性率很低,累积的假阳性结果也会非常惊人。如何从统计层面控制最终报告的错误率?
  4. 修饰处理:翻译后修饰(PTM)改变了氨基酸的质量,如何在不导致组合爆炸的前提下搜索带修饰的肽段?
  • 实验 MS2 谱图集合{S1,S2,...,Sn}\{S_1, S_2, ..., S_n\},每张谱图包含一组碎片离子的 (m/z,intensity)(m/z, \text{intensity}) 峰列表。
  • 蛋白质序列数据库:如 UniProt、RefSeq,通常包含数万到数十万条蛋白质序列。
  • 搜索参数
    • 酶切规则(如 Trypsin,允许的漏切数 Missed Cleavages)
    • 肽段质量范围(如 500—5000 Da)
    • 前体离子质量容忍度(Precursor Mass Tolerance,如 10 ppm)
    • 碎片离子质量容忍度(Fragment Mass Tolerance,如 0.02 Da)
    • 固定修饰(Fixed Modification,如 Carbamidomethylation of C)
    • 可变修饰(Variable Modification,如 Oxidation of M)
  • 肽段-谱图匹配列表(PSM List):每个 PSM 包含谱图 ID、匹配的肽段序列、评分、质量误差等。
  • 蛋白质鉴定列表:通过蛋白推断(Protein Inference)将 PSM 汇总为蛋白质水平的鉴定结果。
  • FDR 估计:在给定阈值下,鉴定结果的预期错误发现率。

数据库搜索的第一步是定义候选肽段集合。对于给定的蛋白质序列数据库和酶切规则:

P={p:p 是数据库中某条蛋白质的 Trypsin 酶切产物, MminMpMmax}\mathcal{P} = \{p : p \text{ 是数据库中某条蛋白质的 Trypsin 酶切产物, } M_{\min} \leq M_p \leq M_{\max}\}

例如,人类 UniProt 数据库(约 20,000 条蛋白)经 Trypsin 酶切后可产生约 300—500 万个候选肽段。对于每张谱图,搜索算法需要在这个候选集合中找到最佳匹配。

前体过滤(Precursor Filtering):在实际搜索中,首先根据母离子质量(Precursor Mass)进行过滤,只保留质量在容忍度范围内的候选肽段。这一步可以将候选数量从数百万缩减到数百至数千。

PSM (Peptide-Spectrum Match) 是蛋白质鉴定的最小证据单位。它是指一个实验谱图与数据库中一个候选肽段序列之间的关联。每个 PSM 有一个评分(Score),表示匹配的质量。

评分算法是数据库搜索的核心,它定义了”匹配得好”的标准。

共享峰计数(Shared Peaks Count)
最直观的方法:统计实验谱峰与理论谱峰重合的数量。简单但粗糙——忽略了峰的强度信息,容易受到背景噪声(随机峰)的干扰。
交叉相关(XCorr)
SEQUEST 引入的经典评分。通过计算实验谱与理论谱之间的位移互相关函数(Cross-Correlation Function)来抗噪。XCorr 不仅计算零位移处的相关系数,还减去附近位移处的平均相关值作为基线校正,从而降低随机匹配的得分。
概率评分(MOWSE / Mascot Ion Score)
计算一个匹配纯粹由随机产生的概率。Mascot 的离子评分定义为 $I = -10 cdot log_{10}(P)$,其中 $P$ 是观察到至少同等质量匹配的随机概率。分值越高,匹配越不可能是随机发生的。MOWSE 算法还考虑了肽段质量分布的不均匀性。
Andromeda / MS-GF+ 评分
现代工具使用的概率评分系统。MS-GF+ 基于动态规划的碎片离子对齐,生成一个概率模型。Andromeda(MaxQuant 内置搜索引擎)结合了 XCorr 风格的评分与概率框架,在速度和灵敏度之间取得了很好的平衡。

XCorr 的计算过程可以描述为:

  1. 给定实验谱 EE 和候选肽段 pp 的理论谱 TT,计算互相关函数:

R(τ)=iE(m/zi)T(m/ziτ)R(\tau) = \sum_{i} E(m/z_i) \cdot T(m/z_i - \tau)

  1. 提取零位移处的值并减去基线:

XCorr=R(0)1nτ0R(τ)\text{XCorr} = R(0) - \frac{1}{n} \sum_{\tau \neq 0} R(\tau)

其中 nn 是求和范围的大小。这种基线校正有效地惩罚了那些在整个谱图中”到处都差不多匹配”的候选肽段。

在处理数百万个 PSM 时,需要一个可靠的方法来估计假阳性率。

Target-Decoy 策略基于一个关键假设:匹配到**诱饵序列(Decoy Sequence)**的 PSM 必然是假阳性。因此,Decoy 匹配的数量可以作为 Target 匹配中假阳性数量的估计。

  1. 构建 Decoy 数据库:将真实蛋白质序列(Target 库)进行反转(Reversed)或随机打乱(Shuffled),生成同样大小的 Decoy 库。反转是最常用的方法,因为它保持了氨基酸组成和酶切位点的分布。
  2. 合并搜索:将 Target 和 Decoy 序列合并为搜索数据库,执行数据库搜索。
  3. FDR 估计:在给定评分阈值 tt 下:

FDR^(t)=#{Decoy PSMs with scoret}#{Target PSMs with scoret}\widehat{\text{FDR}}(t) = \frac{\#\{\text{Decoy PSMs with score} \geq t\}}{\#\{\text{Target PSMs with score} \geq t\}}

  1. 阈值选择:找到使得 FDR^α\widehat{\text{FDR}} \leq \alpha(通常 α=0.01\alpha = 0.01)的最低评分阈值。

蛋白质组学中通常需要进行级联 FDR 控制:

  1. PSM 级 FDR:控制每个肽段-谱图匹配的错误率。
  2. Peptide 级 FDR:同一肽段被多次鉴定时,取最高评分,控制唯一肽段的错误率。
  3. Protein 级 FDR:通过蛋白推断(Protein Inference),控制蛋白质水平鉴定的错误率。常用方法包括目标-诱饵蛋白质级 FDR(Mayo 等方法)和基于蛋白分组的简单策略。

假设我们有一张 MS2 谱图,母离子质量为 M=756.4M = 756.4 Da(电荷态 z=2z = 2,前体 m/z=378.7m/z = 378.7),搜索数据库后得到以下候选肽段和评分:

候选肽段质量误差(Da)XCorr 评分来源
PEPTIDEK0.0022.8Target
PEPTIDER0.0012.1Target
REPTIDEK0.0150.5Decoy
AKDPEPTI0.0080.3Decoy

从高到低排列所有 PSM:

  1. PEPTIDEK (Target, XCorr = 2.8)
  2. PEPTIDER (Target, XCorr = 2.1)
  3. REPTIDEK (Decoy, XCorr = 0.5)
  4. AKDPEPTI (Decoy, XCorr = 0.3)

对于每个可能的阈值 tt

阈值 ttTarget Hits t\geq tDecoy Hits t\geq tFDR
2.8100/1 = 0.00
2.1200/2 = 0.00
0.5211/2 = 0.50
0.3222/2 = 1.00

如果要求 FDR 1%\leq 1\%,则选择 t=2.1t = 2.1,保留 PEPTIDEK 和 PEPTIDER 两个鉴定结果。

这个例子中的 Decoy 数量很少。在实际搜索中,通常会产生数万到数十万个 Decoy 命中,FDR 估计才具有统计意义。当 Decoy 命中数量过少时,FDR 估计的方差很大,结论不可靠。

6. 修饰肽段的搜索:虚拟数据库逻辑

Section titled “6. 修饰肽段的搜索:虚拟数据库逻辑”

蛋白质在体内常发生翻译后修饰(PTM)(如磷酸化、乙酰化、甲基化)。

修饰会改变氨基酸的质量。例如,丝氨酸(Serine)磷酸化会增加约 79.966 Da 的质量偏移。如果不考虑修饰,理论谱与实验谱之间会出现系统性质量偏差,导致正确的肽段无法被匹配。

一种朴素的解决思路是虚拟数据库(In Silico Database):在原始数据库的基础上,枚举所有可能的修饰组合,生成一个巨大的扩展数据库。

  • 组合爆炸:假设一个肽段有 kk 个可修饰位点,mm 种修饰类型,则候选变体数量为 i=0k(ki)mi\sum_{i=0}^{k} \binom{k}{i} \cdot m^i
  • 计算代价:即使只考虑 1 种修饰(如 Oxidation of M),一个含有 3 个 Met 的肽段也会产生 23=82^3 = 8 个变体。如果同时搜索 5 种可变修饰,搜索空间会急剧膨胀。

虚拟数据库方法的组合爆炸问题催生了更高效的搜索策略:

  • 开放搜索(Open Search):放宽前体质量容忍度(如 ±500\pm 500 Da),不预设修饰类型。MSFragger 是开放搜索的代表工具。代价是搜索空间增大,需要更快的索引和评分方法。
  • 谱图中心化(Spectral Centroiding):先在较大的质量窗口中搜索,识别质量偏移的模式,再用精确质量进行二次搜索。
  • PTM 局部化(PTM Localization):对于已鉴定的修饰肽段,进一步确定修饰发生在哪个具体位点。Ascore 是磷酸化位点定位的经典算法。

详见 谱对齐谱卷积

步骤复杂度说明
数据库预处理$O(D
前体质量过滤O(Npeptide)O(N_{\text{peptide}})按母离子质量筛选候选肽段
评分计算O(nkNfiltered)O(n \cdot k \cdot N_{\text{filtered}})nn 张谱图,每张与 NfilteredN_{\text{filtered}} 个候选比较,kk 为碎片数量
FDR 计算O(nlogn)O(n \cdot \log n)排序 + 累积计算

其中 NfilteredN_{\text{filtered}} 是经过质量过滤后的候选数量。实践中,使用前体索引(Precursor Index)可以将搜索速度提高数个数量级。

数据库搜索方法的可靠性依赖于以下假设:

  1. 数据库完备性:目标蛋白质的序列必须存在于搜索数据库中。如果样本来自非模式生物或包含大量突变/变异,鉴定率会显著下降。
  2. 酶切特异性:搜索算法假设酶切遵循特定规则。如果样本处理中酶切不完全(如漏切率过高),需要放宽搜索参数,但这会增大搜索空间。
  3. 碎裂可预测性:评分算法的理论谱基于理想的碎裂模型。实际的 CID/HCD 碎裂受多种因素影响,并非所有位点都会均匀碎裂。
  4. 质量精度:高分辨率质谱仪(Orbitrap, TOF)的 ppm 级质量精度可以大幅缩小候选空间,而低分辨率仪器(Ion Trap)需要更大的质量容忍度,导致更多的候选和更高的假阳性率。
工具核心策略特点
SEQUESTXCorr 评分最早的数据库搜索工具之一,与 Proteome Discoverer 集成
Mascot概率评分(MOWSE)使用广泛,商业化支持,网页界面友好
Andromeda结合 XCorr 与概率模型MaxQuant 的内置搜索引擎,与定量流程深度集成
MS-GF+动态规划 + 概率评分开源,支持多种碎裂类型,质量精度容忍度灵活
MSFragger开放搜索 + 碎片索引极快的搜索速度,适合非标准修饰的发现性分析
CometXCorr 变体SEQUEST 的开源替代,可集成到 TPP (Trans-Proteomic Pipeline) 流程中
MetaMorpheus非特异性搜索G-PTM-D 算法,适合未知修饰的发现