数据库搜索与 FDR
数据库搜索是目前蛋白质鉴定最常用的方法。本章介绍肽段-谱图匹配(PSM)的概念、常用评分算法、通过 Target-Decoy 策略控制错误发现率(FDR)的统计方法,以及如何处理带有修饰的肽段。
- 理解肽段-谱图匹配(PSM) 作为蛋白质鉴定的基本单位
- 掌握共享峰计数、相关系数(XCorr) 与概率评分的原理
- 掌握 Target-Decoy 策略在估计假阳性率中的应用
- 了解基于"虚拟数据库"的修饰肽段搜索挑战
1. 是什么
Section titled “1. 是什么”数据库搜索(Database Search)是质谱蛋白质组学中最核心的计算方法,用于将实验获得的 MS2 碎片谱图与已知蛋白质序列数据库进行匹配,从而鉴定样本中存在的肽段和蛋白质。
其核心逻辑是:给定一张实验 MS2 谱图和一个蛋白质序列数据库,从中找到”最可能产生这张谱图的肽段序列”。与 De Novo 测序(不依赖数据库、从谱图直接推断序列)不同,数据库搜索将候选肽段的空间限制在已知蛋白质序列的酶切产物中,从而在效率和鲁棒性之间取得了优秀的平衡。
2. 要解决什么生物信息学问题
Section titled “2. 要解决什么生物信息学问题”在蛋白质组学实验中,一台质谱仪在数小时内可以产生数百万张 MS2 谱图。生物信息学面临的核心问题是:
- 大规模匹配:如何高效地将每张谱图与数据库中可能数百万个候选肽段进行比较?
- 匹配质量评估:如何衡量一个肽段与谱图的匹配”好到什么程度”?如何区分真实匹配和随机巧合?
- 错误率控制:在数百万次比较中,即便每次比较的假阳性率很低,累积的假阳性结果也会非常惊人。如何从统计层面控制最终报告的错误率?
- 修饰处理:翻译后修饰(PTM)改变了氨基酸的质量,如何在不导致组合爆炸的前提下搜索带修饰的肽段?
3. 输入与输出
Section titled “3. 输入与输出”- 实验 MS2 谱图集合:,每张谱图包含一组碎片离子的 峰列表。
- 蛋白质序列数据库:如 UniProt、RefSeq,通常包含数万到数十万条蛋白质序列。
- 搜索参数:
- 酶切规则(如 Trypsin,允许的漏切数 Missed Cleavages)
- 肽段质量范围(如 500—5000 Da)
- 前体离子质量容忍度(Precursor Mass Tolerance,如 10 ppm)
- 碎片离子质量容忍度(Fragment Mass Tolerance,如 0.02 Da)
- 固定修饰(Fixed Modification,如 Carbamidomethylation of C)
- 可变修饰(Variable Modification,如 Oxidation of M)
- 肽段-谱图匹配列表(PSM List):每个 PSM 包含谱图 ID、匹配的肽段序列、评分、质量误差等。
- 蛋白质鉴定列表:通过蛋白推断(Protein Inference)将 PSM 汇总为蛋白质水平的鉴定结果。
- FDR 估计:在给定阈值下,鉴定结果的预期错误发现率。
4. 核心思想与数学模型
Section titled “4. 核心思想与数学模型”4.1 搜索空间的定义
Section titled “4.1 搜索空间的定义”数据库搜索的第一步是定义候选肽段集合。对于给定的蛋白质序列数据库和酶切规则:
例如,人类 UniProt 数据库(约 20,000 条蛋白)经 Trypsin 酶切后可产生约 300—500 万个候选肽段。对于每张谱图,搜索算法需要在这个候选集合中找到最佳匹配。
前体过滤(Precursor Filtering):在实际搜索中,首先根据母离子质量(Precursor Mass)进行过滤,只保留质量在容忍度范围内的候选肽段。这一步可以将候选数量从数百万缩减到数百至数千。
4.2 肽段-谱图匹配(PSM)
Section titled “4.2 肽段-谱图匹配(PSM)”PSM (Peptide-Spectrum Match) 是蛋白质鉴定的最小证据单位。它是指一个实验谱图与数据库中一个候选肽段序列之间的关联。每个 PSM 有一个评分(Score),表示匹配的质量。
4.3 评分算法
Section titled “4.3 评分算法”评分算法是数据库搜索的核心,它定义了”匹配得好”的标准。
- 共享峰计数(Shared Peaks Count)
- 最直观的方法:统计实验谱峰与理论谱峰重合的数量。简单但粗糙——忽略了峰的强度信息,容易受到背景噪声(随机峰)的干扰。
- 交叉相关(XCorr)
- SEQUEST 引入的经典评分。通过计算实验谱与理论谱之间的位移互相关函数(Cross-Correlation Function)来抗噪。XCorr 不仅计算零位移处的相关系数,还减去附近位移处的平均相关值作为基线校正,从而降低随机匹配的得分。
- 概率评分(MOWSE / Mascot Ion Score)
- 计算一个匹配纯粹由随机产生的概率。Mascot 的离子评分定义为 $I = -10 cdot log_{10}(P)$,其中 $P$ 是观察到至少同等质量匹配的随机概率。分值越高,匹配越不可能是随机发生的。MOWSE 算法还考虑了肽段质量分布的不均匀性。
- Andromeda / MS-GF+ 评分
- 现代工具使用的概率评分系统。MS-GF+ 基于动态规划的碎片离子对齐,生成一个概率模型。Andromeda(MaxQuant 内置搜索引擎)结合了 XCorr 风格的评分与概率框架,在速度和灵敏度之间取得了很好的平衡。
XCorr 评分的数学细节
Section titled “XCorr 评分的数学细节”XCorr 的计算过程可以描述为:
- 给定实验谱 和候选肽段 的理论谱 ,计算互相关函数:
- 提取零位移处的值并减去基线:
其中 是求和范围的大小。这种基线校正有效地惩罚了那些在整个谱图中”到处都差不多匹配”的候选肽段。
4.4 Target-Decoy 策略
Section titled “4.4 Target-Decoy 策略”在处理数百万个 PSM 时,需要一个可靠的方法来估计假阳性率。
Target-Decoy 策略基于一个关键假设:匹配到**诱饵序列(Decoy Sequence)**的 PSM 必然是假阳性。因此,Decoy 匹配的数量可以作为 Target 匹配中假阳性数量的估计。
- 构建 Decoy 数据库:将真实蛋白质序列(Target 库)进行反转(Reversed)或随机打乱(Shuffled),生成同样大小的 Decoy 库。反转是最常用的方法,因为它保持了氨基酸组成和酶切位点的分布。
- 合并搜索:将 Target 和 Decoy 序列合并为搜索数据库,执行数据库搜索。
- FDR 估计:在给定评分阈值 下:
- 阈值选择:找到使得 (通常 )的最低评分阈值。
级联 FDR 控制
Section titled “级联 FDR 控制”蛋白质组学中通常需要进行级联 FDR 控制:
- PSM 级 FDR:控制每个肽段-谱图匹配的错误率。
- Peptide 级 FDR:同一肽段被多次鉴定时,取最高评分,控制唯一肽段的错误率。
- Protein 级 FDR:通过蛋白推断(Protein Inference),控制蛋白质水平鉴定的错误率。常用方法包括目标-诱饵蛋白质级 FDR(Mayo 等方法)和基于蛋白分组的简单策略。
5. Worked Example
Section titled “5. Worked Example”假设我们有一张 MS2 谱图,母离子质量为 Da(电荷态 ,前体 ),搜索数据库后得到以下候选肽段和评分:
| 候选肽段 | 质量误差(Da) | XCorr 评分 | 来源 |
|---|---|---|---|
| PEPTIDEK | 0.002 | 2.8 | Target |
| PEPTIDER | 0.001 | 2.1 | Target |
| REPTIDEK | 0.015 | 0.5 | Decoy |
| AKDPEPTI | 0.008 | 0.3 | Decoy |
步骤 1:按评分排序
Section titled “步骤 1:按评分排序”从高到低排列所有 PSM:
- PEPTIDEK (Target, XCorr = 2.8)
- PEPTIDER (Target, XCorr = 2.1)
- REPTIDEK (Decoy, XCorr = 0.5)
- AKDPEPTI (Decoy, XCorr = 0.3)
步骤 2:计算累积 FDR
Section titled “步骤 2:计算累积 FDR”对于每个可能的阈值 :
| 阈值 | Target Hits | Decoy Hits | FDR |
|---|---|---|---|
| 2.8 | 1 | 0 | 0/1 = 0.00 |
| 2.1 | 2 | 0 | 0/2 = 0.00 |
| 0.5 | 2 | 1 | 1/2 = 0.50 |
| 0.3 | 2 | 2 | 2/2 = 1.00 |
步骤 3:选择阈值
Section titled “步骤 3:选择阈值”如果要求 FDR ,则选择 ,保留 PEPTIDEK 和 PEPTIDER 两个鉴定结果。
这个例子中的 Decoy 数量很少。在实际搜索中,通常会产生数万到数十万个 Decoy 命中,FDR 估计才具有统计意义。当 Decoy 命中数量过少时,FDR 估计的方差很大,结论不可靠。
6. 修饰肽段的搜索:虚拟数据库逻辑
Section titled “6. 修饰肽段的搜索:虚拟数据库逻辑”蛋白质在体内常发生翻译后修饰(PTM)(如磷酸化、乙酰化、甲基化)。
修饰会改变氨基酸的质量。例如,丝氨酸(Serine)磷酸化会增加约 79.966 Da 的质量偏移。如果不考虑修饰,理论谱与实验谱之间会出现系统性质量偏差,导致正确的肽段无法被匹配。
虚拟数据库方法
Section titled “虚拟数据库方法”一种朴素的解决思路是虚拟数据库(In Silico Database):在原始数据库的基础上,枚举所有可能的修饰组合,生成一个巨大的扩展数据库。
- 组合爆炸:假设一个肽段有 个可修饰位点, 种修饰类型,则候选变体数量为 。
- 计算代价:即使只考虑 1 种修饰(如 Oxidation of M),一个含有 3 个 Met 的肽段也会产生 个变体。如果同时搜索 5 种可变修饰,搜索空间会急剧膨胀。
现代解决方案
Section titled “现代解决方案”虚拟数据库方法的组合爆炸问题催生了更高效的搜索策略:
- 开放搜索(Open Search):放宽前体质量容忍度(如 Da),不预设修饰类型。MSFragger 是开放搜索的代表工具。代价是搜索空间增大,需要更快的索引和评分方法。
- 谱图中心化(Spectral Centroiding):先在较大的质量窗口中搜索,识别质量偏移的模式,再用精确质量进行二次搜索。
- PTM 局部化(PTM Localization):对于已鉴定的修饰肽段,进一步确定修饰发生在哪个具体位点。Ascore 是磷酸化位点定位的经典算法。
7. 复杂度与适用前提
Section titled “7. 复杂度与适用前提”时间复杂度分析
Section titled “时间复杂度分析”| 步骤 | 复杂度 | 说明 |
|---|---|---|
| 数据库预处理 | $O( | D |
| 前体质量过滤 | 按母离子质量筛选候选肽段 | |
| 评分计算 | 张谱图,每张与 个候选比较, 为碎片数量 | |
| FDR 计算 | 排序 + 累积计算 |
其中 是经过质量过滤后的候选数量。实践中,使用前体索引(Precursor Index)可以将搜索速度提高数个数量级。
数据库搜索方法的可靠性依赖于以下假设:
- 数据库完备性:目标蛋白质的序列必须存在于搜索数据库中。如果样本来自非模式生物或包含大量突变/变异,鉴定率会显著下降。
- 酶切特异性:搜索算法假设酶切遵循特定规则。如果样本处理中酶切不完全(如漏切率过高),需要放宽搜索参数,但这会增大搜索空间。
- 碎裂可预测性:评分算法的理论谱基于理想的碎裂模型。实际的 CID/HCD 碎裂受多种因素影响,并非所有位点都会均匀碎裂。
- 质量精度:高分辨率质谱仪(Orbitrap, TOF)的 ppm 级质量精度可以大幅缩小候选空间,而低分辨率仪器(Ion Trap)需要更大的质量容忍度,导致更多的候选和更高的假阳性率。
8. 与真实工具的连接
Section titled “8. 与真实工具的连接”| 工具 | 核心策略 | 特点 |
|---|---|---|
| SEQUEST | XCorr 评分 | 最早的数据库搜索工具之一,与 Proteome Discoverer 集成 |
| Mascot | 概率评分(MOWSE) | 使用广泛,商业化支持,网页界面友好 |
| Andromeda | 结合 XCorr 与概率模型 | MaxQuant 的内置搜索引擎,与定量流程深度集成 |
| MS-GF+ | 动态规划 + 概率评分 | 开源,支持多种碎裂类型,质量精度容忍度灵活 |
| MSFragger | 开放搜索 + 碎片索引 | 极快的搜索速度,适合非标准修饰的发现性分析 |
| Comet | XCorr 变体 | SEQUEST 的开源替代,可集成到 TPP (Trans-Proteomic Pipeline) 流程中 |
| MetaMorpheus | 非特异性搜索 | G-PTM-D 算法,适合未知修饰的发现 |