定量蛋白质组学

快速概览

定量蛋白质组学旨在比较不同生物条件下蛋白质的相对或绝对丰度。通过质谱技术，我们可以捕捉细胞在不同状态下蛋白水平的动态变化，这是理解生命过程的关键。

掌握 Label-free（无标记）定量的原理：峰面积与谱图计数
理解同位素标记策略（SILAC, TMT/iTRAQ）如何消除实验误差
掌握差异蛋白分析中的统计检验与 FDR 校正逻辑
认识"缺失值"与"比例压缩"对定量准确性的挑战

1. 是什么

定量蛋白质组学（Quantitative Proteomics）是指在蛋白质组学实验中对不同生物样本中蛋白质的相对或绝对丰度进行系统测量和比较的学科。与定性鉴定（即”这个蛋白存不存在”）不同，定量蛋白质组学的核心问题是：“这个蛋白在不同条件下，量的变化是多少？”

从计算角度来看，定量蛋白质组学涉及以下关键步骤：

信号提取：从质谱原始数据中提取肽段离子的强度信息。
定量归一化：消除实验批次效应、样本间系统偏差。
蛋白汇总：将肽段水平的定量值聚合为蛋白质水平的丰度。
差异统计：判断哪些蛋白质的丰度变化具有统计学显著性。

2. 为什么重要

定量蛋白质组学填补了基因组学与表型之间的信息鸿沟：

mRNA 丰度不等于蛋白丰度：转录水平与翻译水平之间的相关性通常仅在 $r \approx 0.4$ — $0.6$ 之间，很多生物学调控发生在翻译后水平（如降解速率调控、翻译效率调控）。
疾病标志物发现：癌症的早期诊断、药物靶点的筛选都依赖对蛋白质丰度的精确测量。例如，临床上广泛使用的 PSA（前列腺特异性抗原）检测本质上就是一种蛋白质定量。
药物作用机制研究：药物处理后蛋白质组的变化可以揭示药物的真实作用靶点和脱靶效应，这是转录组无法完全替代的。
信号通路动态：蛋白质磷酸化（Phosphorylation）、泛素化（Ubiquitination）等翻译后修饰（Post-Translational Modification, PTM）的定量变化是细胞信号传导的核心，而 PTM 定量本身就是定量蛋白质组学的重要分支。

3. 核心概念

3.1 蛋白质定量的技术挑战

与转录组相比，蛋白质定量面临更高的技术门槛：

无扩增机制：蛋白质不能像 DNA 那样通过 PCR 扩增，低丰度蛋白极难检测。
巨大的动态范围：血液中白蛋白与细胞因子之间的浓度差异可达 $10^{10}$ 倍。
缺失值（Missing Values）：由于质谱采样的随机性，同一个蛋白在样本 A 中被测到，在样本 B 中可能完全没有信号。这是蛋白质组学数据分析中最棘手的问题之一。

3.2 定量策略分类

无标记定量（Label-free Quantification, LFQ）

直接比较不同批次运行产生的质谱信号，不需要任何化学标记。

提取离子色谱图（Extracted Ion Chromatogram, XIC）定量：在 MS1 层面追踪特定肽段的离子信号，通过积分色谱峰面积来估计丰度。这是目前最常用的 LFQ 方法，由 MaxQuant 等工具实现。
谱图计数（Spectral Counting）：统计一个蛋白被鉴定到的二级谱图（MS2）总数。简单但精度较低。
优点：操作简单，样本数量不受标记通道限制，适合大规模队列研究。
挑战：不同批次运行之间需要复杂的色谱对齐（Retention Time Alignment）和强度归一化，否则系统偏差会掩盖真实的生物学差异。

同位素标记定量（Isotopic Labeling）

利用稳定同位素（如 $^{13}\text{C}$ 、 $^{15}\text{N}$ 、 $^2\text{H}$ ）产生的可区分的质量偏移，将多个样本混合在同一次质谱运行中。

SILAC (Stable Isotope Labeling by Amino acids in Cell culture): 代谢标记策略。在细胞培养基中加入"重"同位素氨基酸（如 $^{13} ext{C}_6$-Lys），活细胞在蛋白合成过程中自然掺入标记氨基酸。精度最高，因为标记发生在蛋白合成阶段，消除了后续所有实验步骤的偏差。但仅限可培养的细胞体系。
TMT (Tandem Mass Tag) / iTRAQ (Isobaric Tags for Relative and Absolute Quantitation): 化学标记策略。在肽段水平通过化学反应将等质量标签（Isobaric Tag）连接到肽段的 N 端或赖氨酸侧链。不同标签在 MS1 层面质量相同（等质量），但在 MS2 碎裂时会释放出质量不同的报告离子（Reporter Ion），通过比较报告离子的强度实现多路复用定量。TMT Pro 最多可同时标记 16 个样本。

绝对定量（Absolute Quantification）

在相对定量的基础上，进一步确定蛋白质的绝对浓度（如 copies/cell 或 ng/mL）。

AQUA 肽段（Absolute QUAntification）：合成已知浓度的重同位素标记肽段作为内标，通过内标与内源性肽段的信号比计算绝对浓度。
iBAQ (intensity-Based Absolute Quantification)：MaxQuant 提出的无标记绝对定量方法，利用所有可检测肽段的强度之和除以该蛋白理论可产生的肽段总数来推断蛋白摩尔数。

3.3 从肽段到蛋白质：数据汇总

由于质谱实际测量的是肽段（Peptide），最终需要将多个肽段的定量值汇总为蛋白丰度：

独特肽段（Unique Peptides）：只属于一个蛋白（Protein Group）的肽段，是最可靠的定量证据。
共享肽段（Shared Peptides）：属于同源蛋白家族（Protein Family）或不同剪接变体（Isoform）的肽段。通常采用”剃刀原则”（Razor Peptides）进行分配——即把共享肽段分配给已有最多独特肽段支持的蛋白。
Top-N 策略：在 MaxQuant 等工具中，默认只使用强度最高的 2—3 个肽段（Top-N）来代表蛋白质丰度，以减少异常值的影响。

3.4 归一化与批次校正

定量数据在进入统计检验前，需要经过归一化处理以消除系统偏差：

总量归一化（Total Intensity Normalization）：将每个样本的所有蛋白强度之和缩放到同一水平。
中位数归一化（Median Normalization）：假设大多数蛋白不发生变化，将每个样本的中位数蛋白强度对齐。
内标归一化：利用已知浓度的外源蛋白（如 yeast enolase）作为参考标准。
批次效应校正：对于跨越多天或多个实验批次的大规模研究，可使用 ComBat 等方法消除批次间系统偏差。

4. 应用场景

4.1 差异表达蛋白分析

最常见的应用场景。通过比较处理组与对照组，找出丰度发生显著变化的蛋白质。核心统计流程：

倍数变化（Fold Change）：计算处理组相对于对照组的丰度比值，通常取 $\log_2$ 变换使分布对称。
统计检验（Statistical Test）：使用 $t$ 检验、Wilcoxon 秩和检验等方法计算 P-value。
多重检验校正（Multiple Testing Correction）：利用 Benjamini-Hochberg (BH) 方法控制错误发现率（False Discovery Rate, FDR）。在蛋白质组学中，常用的显著性阈值为 FDR < 0.05 且 $|\log_2 \text{FC}| > 1$ 。

4.2 时间序列与剂量响应

研究蛋白质丰度随时间或药物浓度的动态变化趋势。此时需要更复杂的统计模型，如时间序列聚类（Time-Series Clustering）或混合效应模型（Mixed-Effects Model）。

4.3 翻译后修饰定量

磷酸化蛋白质组学（Phosphoproteomics）是最常见的 PTM 定量分支。通过富集磷酸化肽段（如使用 TiO2 或 IMAC 柱），可以定量比较不同条件下磷酸化位点的变化，揭示信号通路的激活状态。

4.4 蛋白质-蛋白质相互作用

通过定量标记结合亲和纯化（Affinity Purification, AP-MS），可以定量比较诱饵蛋白（Bait Protein）与互作蛋白在实验组和对照组中的富集程度，从而鉴定真实的蛋白互作网络。