数据库搜索与 FDR

快速概览

数据库搜索是目前蛋白质鉴定最常用的方法。本章介绍肽段-谱图匹配（PSM）的概念、常用评分算法、通过 Target-Decoy 策略控制错误发现率（FDR）的统计方法，以及如何处理带有修饰的肽段。

理解肽段-谱图匹配（PSM）作为蛋白质鉴定的基本单位
掌握共享峰计数、相关系数（XCorr）与概率评分的原理
掌握 Target-Decoy 策略在估计假阳性率中的应用
了解基于"虚拟数据库"的修饰肽段搜索挑战

1. 是什么

肽段-谱图匹配（PSM）示意：实验 MS2 谱图与理论谱图的比对打分 — 肽段-谱图匹配（Peptide-Spectrum Match, PSM）：实验谱图与理论谱图的比对打分

数据库搜索（Database Search）是质谱蛋白质组学中最核心的计算方法，用于将实验获得的 MS2 碎片谱图与已知蛋白质序列数据库进行匹配，从而鉴定样本中存在的肽段和蛋白质。

其核心逻辑是：给定一张实验 MS2 谱图和一个蛋白质序列数据库，从中找到”最可能产生这张谱图的肽段序列”。与 De Novo 测序（不依赖数据库、从谱图直接推断序列）不同，数据库搜索将候选肽段的空间限制在已知蛋白质序列的酶切产物中，从而在效率和鲁棒性之间取得了优秀的平衡。

2. 要解决什么生物信息学问题

在蛋白质组学实验中，一台质谱仪在数小时内可以产生数百万张 MS2 谱图。生物信息学面临的核心问题是：

大规模匹配：如何高效地将每张谱图与数据库中可能数百万个候选肽段进行比较？
匹配质量评估：如何衡量一个肽段与谱图的匹配”好到什么程度”？如何区分真实匹配和随机巧合？
错误率控制：在数百万次比较中，即便每次比较的假阳性率很低，累积的假阳性结果也会非常惊人。如何从统计层面控制最终报告的错误率？
修饰处理：翻译后修饰（PTM）改变了氨基酸的质量，如何在不导致组合爆炸的前提下搜索带修饰的肽段？

3. 输入与输出

输入

实验 MS2 谱图集合： $\{S_1, S_2, ..., S_n\}$ ，每张谱图包含一组碎片离子的 $(m/z, \text{intensity})$ 峰列表。
蛋白质序列数据库：如 UniProt、RefSeq，通常包含数万到数十万条蛋白质序列。
搜索参数：
- 酶切规则（如 Trypsin，允许的漏切数 Missed Cleavages）
- 肽段质量范围（如 500—5000 Da）
- 前体离子质量容忍度（Precursor Mass Tolerance，如 10 ppm）
- 碎片离子质量容忍度（Fragment Mass Tolerance，如 0.02 Da）
- 固定修饰（Fixed Modification，如 Carbamidomethylation of C）
- 可变修饰（Variable Modification，如 Oxidation of M）

输出

肽段-谱图匹配列表（PSM List）：每个 PSM 包含谱图 ID、匹配的肽段序列、评分、质量误差等。
蛋白质鉴定列表：通过蛋白推断（Protein Inference）将 PSM 汇总为蛋白质水平的鉴定结果。
FDR 估计：在给定阈值下，鉴定结果的预期错误发现率。

4. 核心思想与数学模型

4.1 搜索空间的定义

数据库搜索的第一步是定义候选肽段集合。对于给定的蛋白质序列数据库和酶切规则：

$\mathcal{P} = \{p : p \text{ is a Trypsin digest product from database}, M_{\min} \leq M_p \leq M_{\max}\}$

例如，人类 UniProt 数据库（约 20,000 条蛋白）经 Trypsin 酶切后可产生约 300—500 万个候选肽段。对于每张谱图，搜索算法需要在这个候选集合中找到最佳匹配。

前体过滤（Precursor Filtering）：在实际搜索中，首先根据母离子质量（Precursor Mass）进行过滤，只保留质量在容忍度范围内的候选肽段。这一步可以将候选数量从数百万缩减到数百至数千。

4.2 肽段-谱图匹配（PSM）

PSM (Peptide-Spectrum Match) 是蛋白质鉴定的最小证据单位。它是指一个实验谱图与数据库中一个候选肽段序列之间的关联。每个 PSM 有一个评分（Score），表示匹配的质量。

4.3 评分算法

评分算法是数据库搜索的核心，它定义了”匹配得好”的标准。

共享峰计数（Shared Peaks Count）: 最直观的方法：统计实验谱峰与理论谱峰重合的数量。简单但粗糙——忽略了峰的强度信息，容易受到背景噪声（随机峰）的干扰。
交叉相关（XCorr）: SEQUEST 引入的经典评分。通过计算实验谱与理论谱之间的位移互相关函数（Cross-Correlation Function）来抗噪。XCorr 不仅计算零位移处的相关系数，还减去附近位移处的平均相关值作为基线校正，从而降低随机匹配的得分。
概率评分（MOWSE / Mascot Ion Score）: 计算一个匹配纯粹由随机产生的概率。Mascot 的离子评分定义为 $I = -10 cdot log_{10}(P)$，其中 $P$ 是观察到至少同等质量匹配的随机概率。分值越高，匹配越不可能是随机发生的。MOWSE 算法还考虑了肽段质量分布的不均匀性。
Andromeda / MS-GF+ 评分: 现代工具使用的概率评分系统。MS-GF+ 基于动态规划的碎片离子对齐，生成一个概率模型。Andromeda（MaxQuant 内置搜索引擎）结合了 XCorr 风格的评分与概率框架，在速度和灵敏度之间取得了很好的平衡。

XCorr 评分的数学细节

XCorr 的计算过程可以描述为：

给定实验谱 $E$ 和候选肽段 $p$ 的理论谱 $T$ ，计算互相关函数：

$R(\tau) = \sum_{i} E(m/z_i) \cdot T(m/z_i - \tau)$

提取零位移处的值并减去基线：

$\text{XCorr} = R(0) - \frac{1}{n} \sum_{\tau \neq 0} R(\tau)$

其中 $n$ 是求和范围的大小。这种基线校正有效地惩罚了那些在整个谱图中”到处都差不多匹配”的候选肽段。

4.4 Target-Decoy 策略

在处理数百万个 PSM 时，需要一个可靠的方法来估计假阳性率。

核心假设

Target-Decoy 策略基于一个关键假设：匹配到**诱饵序列（Decoy Sequence）**的 PSM 必然是假阳性。因此，Decoy 匹配的数量可以作为 Target 匹配中假阳性数量的估计。

实施步骤

构建 Decoy 数据库：将真实蛋白质序列（Target 库）进行反转（Reversed）或随机打乱（Shuffled），生成同样大小的 Decoy 库。反转是最常用的方法，因为它保持了氨基酸组成和酶切位点的分布。
合并搜索：将 Target 和 Decoy 序列合并为搜索数据库，执行数据库搜索。
FDR 估计：在给定评分阈值 $t$ 下：

$\widehat{\text{FDR}}(t) = \frac{\#\{\text{Decoy PSMs with score} \geq t\}}{\#\{\text{Target PSMs with score} \geq t\}}$

阈值选择：找到使得 $\widehat{\text{FDR}} \leq \alpha$ （通常 $\alpha = 0.01$ ）的最低评分阈值。

级联 FDR 控制

蛋白质组学中通常需要进行级联 FDR 控制：

PSM 级 FDR：控制每个肽段-谱图匹配的错误率。
Peptide 级 FDR：同一肽段被多次鉴定时，取最高评分，控制唯一肽段的错误率。
Protein 级 FDR：通过蛋白推断（Protein Inference），控制蛋白质水平鉴定的错误率。常用方法包括目标-诱饵蛋白质级 FDR（Mayo 等方法）和基于蛋白分组的简单策略。

5. Worked Example

场景

假设我们有一张 MS2 谱图，母离子质量为 $M = 756.4$ Da（电荷态 $z = 2$ ，前体 $m/z = 378.7$ ），搜索数据库后得到以下候选肽段和评分：

候选肽段	质量误差（Da）	XCorr 评分	来源
PEPTIDEK	0.002	2.8	Target
PEPTIDER	0.001	2.1	Target
REPTIDEK	0.015	0.5	Decoy
AKDPEPTI	0.008	0.3	Decoy

步骤 1：按评分排序

从高到低排列所有 PSM：

PEPTIDEK (Target, XCorr = 2.8)
PEPTIDER (Target, XCorr = 2.1)
REPTIDEK (Decoy, XCorr = 0.5)
AKDPEPTI (Decoy, XCorr = 0.3)

步骤 2：计算累积 FDR

对于每个可能的阈值 $t$ ：

阈值 $t$	Target Hits $\geq t$	Decoy Hits $\geq t$	FDR
2.8	1	0	0/1 = 0.00
2.1	2	0	0/2 = 0.00
0.5	2	1	1/2 = 0.50
0.3	2	2	2/2 = 1.00

步骤 3：选择阈值

如果要求 FDR $\leq 1\%$ ，则选择 $t = 2.1$ ，保留 PEPTIDEK 和 PEPTIDER 两个鉴定结果。

注意事项

这个例子中的 Decoy 数量很少。在实际搜索中，通常会产生数万到数十万个 Decoy 命中，FDR 估计才具有统计意义。当 Decoy 命中数量过少时，FDR 估计的方差很大，结论不可靠。

6. 修饰肽段的搜索：虚拟数据库逻辑

蛋白质在体内常发生翻译后修饰（PTM）（如磷酸化、乙酰化、甲基化）。

问题定义

修饰会改变氨基酸的质量。例如，丝氨酸（Serine）磷酸化会增加约 79.966 Da 的质量偏移。如果不考虑修饰，理论谱与实验谱之间会出现系统性质量偏差，导致正确的肽段无法被匹配。

虚拟数据库方法

一种朴素的解决思路是虚拟数据库（In Silico Database）：在原始数据库的基础上，枚举所有可能的修饰组合，生成一个巨大的扩展数据库。

组合爆炸：假设一个肽段有 $k$ 个可修饰位点， $m$ 种修饰类型，则候选变体数量为 $\sum_{i=0}^{k} \binom{k}{i} \cdot m^i$ 。
计算代价：即使只考虑 1 种修饰（如 Oxidation of M），一个含有 3 个 Met 的肽段也会产生 $2^3 = 8$ 个变体。如果同时搜索 5 种可变修饰，搜索空间会急剧膨胀。

现代解决方案

虚拟数据库方法的组合爆炸问题催生了更高效的搜索策略：

开放搜索（Open Search）：放宽前体质量容忍度（如 $\pm 500$ Da），不预设修饰类型。MSFragger 是开放搜索的代表工具。代价是搜索空间增大，需要更快的索引和评分方法。
谱图中心化（Spectral Centroiding）：先在较大的质量窗口中搜索，识别质量偏移的模式，再用精确质量进行二次搜索。
PTM 局部化（PTM Localization）：对于已鉴定的修饰肽段，进一步确定修饰发生在哪个具体位点。Ascore 是磷酸化位点定位的经典算法。

详见谱对齐和谱卷积。

7. 复杂度与适用前提

时间复杂度分析

步骤	复杂度	说明
数据库预处理	$O(	D
前体质量过滤	$O(N_{\text{peptide}})$	按母离子质量筛选候选肽段
评分计算	$O(n \cdot k \cdot N_{\text{filtered}})$	$n$ 张谱图，每张与 $N_{\text{filtered}}$ 个候选比较， $k$ 为碎片数量
FDR 计算	$O(n \cdot \log n)$	排序 + 累积计算

其中 $N_{\text{filtered}}$ 是经过质量过滤后的候选数量。实践中，使用前体索引（Precursor Index）可以将搜索速度提高数个数量级。

适用前提

数据库搜索方法的可靠性依赖于以下假设：

数据库完备性：目标蛋白质的序列必须存在于搜索数据库中。如果样本来自非模式生物或包含大量突变/变异，鉴定率会显著下降。
酶切特异性：搜索算法假设酶切遵循特定规则。如果样本处理中酶切不完全（如漏切率过高），需要放宽搜索参数，但这会增大搜索空间。
碎裂可预测性：评分算法的理论谱基于理想的碎裂模型。实际的 CID/HCD 碎裂受多种因素影响，并非所有位点都会均匀碎裂。
质量精度：高分辨率质谱仪（Orbitrap, TOF）的 ppm 级质量精度可以大幅缩小候选空间，而低分辨率仪器（Ion Trap）需要更大的质量容忍度，导致更多的候选和更高的假阳性率。

8. 与真实工具的连接

工具	核心策略	特点
SEQUEST	XCorr 评分	最早的数据库搜索工具之一，与 Proteome Discoverer 集成
Mascot	概率评分（MOWSE）	使用广泛，商业化支持，网页界面友好
Andromeda	结合 XCorr 与概率模型	MaxQuant 的内置搜索引擎，与定量流程深度集成
MS-GF+	动态规划 + 概率评分	开源，支持多种碎裂类型，质量精度容忍度灵活
MSFragger	开放搜索 + 碎片索引	极快的搜索速度，适合非标准修饰的发现性分析
Comet	XCorr 变体	SEQUEST 的开源替代，可集成到 TPP (Trans-Proteomic Pipeline) 流程中
MetaMorpheus	非特异性搜索	G-PTM-D 算法，适合未知修饰的发现

常见误区

过度信赖单一评分：
不同的评分算法对同一组 PSM 可能给出不同的排序。XCorr 和 Mascot Ion Score 的数值不可直接比较。在严格的蛋白质组学研究中，推荐使用至少两种独立的方法交叉验证鉴定结果，或使用如 Percolator 等机器学习方法对多个评分特征进行整合。
忽略蛋白推断问题：
数据库搜索鉴定的是肽段，而用户通常关心的是蛋白质。从肽段到蛋白质的推断存在歧义性：一组肽段可能对应多个蛋白质（如旁系同源基因的产物共享部分肽段）。简单地将所有包含至少 2 个唯一肽段的蛋白报告为"已鉴定"会导致：
假阳性蛋白被过度报告。
蛋白质之间的从属关系（如某个蛋白的所有肽段都是另一个蛋白的子集）被忽略。