PWM 与 PSSM
PWM(位置权重矩阵)和 PSSM(位置特异打分矩阵)是 motif 的核心表示方法:它们通过位置相关的统计权重,使得我们可以对任意候选片段计算'像不像这个 motif'的得分。
- PWM 是基于对数比值的打分矩阵,PSSM 是其应用形式
- 核心思想是用背景概率归一化,突出 motif 的统计特征
- 它是 motif 扫描和序列 logo 可视化的基础
PWM(Position Weight Matrix,位置权重矩阵)和 PSSM(Position-Specific Scoring Matrix,位置特异打分矩阵)是描述序列 motif 的经典表示方式。
它们的核心思想是:一个 motif 不是要求每个位置都完全一样,而是允许每个位置对不同字符有不同偏好。
要解决什么生物信息学问题
Section titled “要解决什么生物信息学问题”很多真实序列模式并不是”固定字符串”,而是:
- 某些位置非常保守;
- 某些位置允许多种字符;
- 整体上呈现统计偏好而不是绝对规则。
PWM / PSSM 让我们可以用矩阵形式刻画这种偏好,并用一个统一框架来”打分”候选序列片段。
从 PFM 到 PWM
Section titled “从 PFM 到 PWM”给定位置频率矩阵 PFM,其中 表示位置 上字符 的频率,PWM 的定义为:
其中:
- 是位置 上字符 的权重
- 是位置 上字符 的频率
- 是字符 的背景频率
为了避免零概率,通常使用伪计数:
\tilde\{f\}_\{i,c\} = \frac\{\text\{count\}_\{i,c\} + \alpha\}\{N + 4\alpha\} w_\{i,c\} = \log_2\left(\frac\{\tilde\{f\}_\{i,c\}\}\{b_c\}\right)PSSM 打分
Section titled “PSSM 打分”对于候选序列片段 ,其 PSSM 得分为:
PSSM 得分可以理解为对数似然比:
其中:
- 是 motif 模型下的序列概率
- 是背景模型下的序列概率
得分越高,说明序列越像由 motif 生成,而非随机背景。
构建 PWM
Section titled “构建 PWM”算法1:从 PFM 构建 PWM
输入:PFM(或原始计数),背景频率 b_c,伪计数 α输出:PWM
1. for i = 1 to L: for each character c ∈ \{A, C, G, T\}: f_ic = (PFM[i][c] + α) / (N + 4α) PWM[i][c] = log₂(f_ic / b_c)2. return PWM时间复杂度:O(L)
PSSM 扫描
Section titled “PSSM 扫描”算法2:使用 PSSM 扫描序列
输入:PWM,序列 seq,motif 长度 L输出:每个起始位置的得分
1. for pos = 1 to (|seq| - L + 1): score = 0 for i = 1 to L: c = seq[pos + i - 1] score += PWM[i][c] output score at position pos时间复杂度:O(|seq| · L)
常用阈值选择方法:
- 固定阈值:根据经验设定
- 百分位数阈值:在随机序列上计算得分分布,选择 top p%
- FDR 控制:根据假发现率调整阈值
- 基于 p-value:计算每个得分的统计显著性
假设我们有以下 5 个 motif 实例:
TATAAATATGAATATAATTATCAATATAAA步骤 1:构建 PFM
Section titled “步骤 1:构建 PFM”统计每个位置上各碱基的出现次数:
| 位置 | A | C | G | T | 总计 |
|---|---|---|---|---|---|
| 1 | 0 | 0 | 0 | 5 | 5 |
| 2 | 5 | 0 | 0 | 0 | 5 |
| 3 | 0 | 0 | 0 | 5 | 5 |
| 4 | 4 | 1 | 0 | 0 | 5 |
| 5 | 5 | 0 | 0 | 0 | 5 |
| 6 | 4 | 0 | 0 | 1 | 5 |
步骤 2:转换为频率
Section titled “步骤 2:转换为频率”使用伪计数 α = 0.5,N = 5:
\tilde\{f\}_\{i,c\} = \frac\{\text\{count\}_\{i,c\} + 0.5\}\{5 + 4 \times 0.5\} = \frac\{\text\{count\}_\{i,c\} + 0.5\}\{7\}对于位置 1,碱基 T:
对于位置 1,碱基 A:
步骤 3:构建 PWM
Section titled “步骤 3:构建 PWM”假设背景频率 :
w_\{i,c\} = \log_2\left(\frac\{\tilde\{f\}_\{i,c\}\}\{0.25\}\right)对于位置 1,碱基 T:
对于位置 1,碱基 A:
完整 PWM:
| 位置 | A | C | G | T |
|---|---|---|---|---|
| 1 | -1.82 | -1.82 | -1.82 | 1.65 |
| 2 | 1.65 | -1.82 | -1.82 | -1.82 |
| 3 | -1.82 | -1.82 | -1.82 | 1.65 |
| 4 | 0.85 | -1.82 | -1.82 | -1.82 |
| 5 | 1.65 | -1.82 | -1.82 | -1.82 |
| 6 | 0.85 | -1.82 | -1.82 | -1.82 |
步骤 4:扫描候选序列
Section titled “步骤 4:扫描候选序列”候选序列 1:TATAAA
候选序列 2:CGCGCG
候选序列 3:TATGAA
显然 TATAAA 得分最高,最像该 motif。
- 构建 PWM:O(L),L 是 motif 长度
- 扫描序列:O(M · L),M 是序列长度
- 全基因组扫描:对于长度为 G 的基因组,复杂度为 O(G · L)
- PWM 存储:O(L · 4) = O(L)
- 扫描时临时空间:O(L)
与真实工具或流程的连接
Section titled “与真实工具或流程的连接”这类表示广泛用于:
- motif 扫描;
- 转录因子结合位点分析;
- profile-style 模式识别;
- 作为更复杂概率模型(如 profile HMM)的基础直觉。
在实际流程中,你往往会看到:
- 从 motif discovery 工具输出的 PFM/PWM;
- 使用 PSSM 进行 genome-wide 扫描,给出高分候选位点;
- 再结合进化保守性、表达数据和实验验证进行过滤。