临床变异解释算法
算法在临床变异解释中扮演证据整合与决策支持的角色。从变异优先级排序、ACMG 自动化分类、致病性预测到 de novo 检测和家系分离分析,算法帮助处理海量数据、整合多维证据、量化不确定性,但最终临床判断仍需人工审核。
- 变异优先级排序算法通过频率过滤、功能评估和表型匹配,从数万候选中聚焦高置信度变异
- ACMG 算法化将证据规则转化为可计算的决策流程,但需处理证据冲突和基因特异性调整
- 致病性预测算法(SIFT、PolyPhen、CADD、AlphaMissense)提供支持性证据,但不能单独决定分类
- 算法是辅助工具而非替代:最终临床判断仍需结合家系背景、文献更新和患者沟通
算法驱动的解释工作流
Section titled “算法驱动的解释工作流”临床变异解释算法通常在以下关键节点发挥作用,将海量原始数据转化为可用的临床证据:
候选集压缩(Prioritization)
致病性强度量化(Prediction)
规则驱动分类(ACMG Automation)
临床基因检测产生海量候选变异(WES 2-5万,WGS 可达数百万),而解释资源有限。一个核心问题是:如何设计算法来高效筛选、整合证据并支持临床决策,同时保持可解释性和可追溯性?
算法在变异解释中面临以下挑战:
- 数据规模:需要快速过滤明显不相关的变异,聚焦有限资源;
- 证据异质性:群体频率、功能预测、表型匹配、家系分离等证据类型不同、量纲各异,需设计合理的整合策略;
- 不确定性量化:需要评估证据强度和分类置信度,而非简单二分类;
- 临床可解释性:算法输出需要转化为临床可理解的语言,支持遗传咨询。
因此,临床变异解释算法不仅是”计算工具”,更是证据整合框架和决策支持系统。
1. 变异优先级排序算法
Section titled “1. 变异优先级排序算法”变异优先级排序(variant prioritization)的目标是:从大量候选变异中,找出最可能与患者表型相关的 subset。
经典框架通常包含以下步骤:
1. 频率过滤:排除常见变异(如 gnomAD AF > 1%)2. 功能影响筛选:优先考虑 loss-of-function、splice site 等3. 遗传模式匹配:de novo、纯合、复合杂合等4. 基因-表型匹配:计算基因已知疾病与患者表型的相似度5. 综合评分:多维度证据整合为单一排序分数基因-表型匹配算法
Section titled “基因-表型匹配算法”这是优先级排序中最具特色的部分。常见方法包括:
- 语义相似度:将患者表型(HPO terms)与基因已知疾病(HPO annotations)分别编码为向量,计算余弦相似度;
- 网络传播:在基因-表型网络上进行随机游走或标签传播;
- 贝叶斯框架:将表型匹配作为先验,结合变异证据计算后验概率。
代表工具:Exomiser、PhenIX、Phrank。
为什么不能只看一个分数
Section titled “为什么不能只看一个分数”不同算法的评分体系差异很大:
- 有些侧重罕见程度;
- 有些侧重功能预测;
- 有些侧重表型匹配;
- 有些整合文献证据。
因此,算法分数是优先级排序的辅助,而非最终临床判断。
2. ACMG 分类算法
Section titled “2. ACMG 分类算法”ACMG 框架的算法化
Section titled “ACMG 框架的算法化”ACMG/AMP 指南本身是规则框架,但实际应用中常被算法化:
- 证据编码:将 PVS1、PS1、PM2 等证据条目编码为数值权重;
- 规则引擎:实现证据组合规则(如 1个 Very Strong + 1个 Moderate → Likely Pathogenic);
- 自动分类:根据证据组合自动输出分类结果。
代表工具:InterVar、ClinGen Pathogenicity Calculator、BayesDel。
算法化的挑战
Section titled “算法化的挑战”ACMG 算法化面临几个核心问题:
- 证据冲突:不同来源证据可能矛盾(如功能实验支持致病,但频率不支持);
- 权重设定:不同证据的相对强度如何量化;
- 上下文依赖:某些证据(如 PVS1)需要考虑基因机制和变异位置;
- 灰色地带:规则未覆盖的组合如何处理。
因此,ACMG 算法更多是”辅助决策”而非”自动决策”。
贝叶斯 ACMG 框架
Section titled “贝叶斯 ACMG 框架”近年来的改进方向是将 ACMG 规则映射到贝叶斯框架:
- 每个证据条目对应一个似然比(Likelihood Ratio, LR);
- 最终分类通过后验概率计算;
- 能够更自然地处理证据冲突和不确定性。
这种方法的优势是概率解释更清晰,但需要为每个证据条目估计可靠的 LR。
3. 致病性预测算法
Section titled “3. 致病性预测算法”基于 sequence 的预测
Section titled “基于 sequence 的预测”这类算法直接从变异的序列特征预测致病性:
- SIFT:基于序列保守性,预测氨基酸替换是否耐受;
- PolyPhen-2:结合序列、结构和功能特征;
- MutationAssessor:基于进化保守性和功能位点;
- CADD:整合多种注释特征,输出 C-score。
基于 machine learning 的预测
Section titled “基于 machine learning 的预测”更现代的方法使用机器学习整合多维度特征:
- REVEL:集成多个预测工具的 ensemble;
- MPC:基于 missense constraint 的统计模型;
- PrimateAI:使用深度学习和非人类灵长类数据;
- AlphaMissense:基于蛋白质结构预测的深度学习模型。
预测算法的局限
Section titled “预测算法的局限”- 训练数据偏差:ClinVar 等数据库存在标签噪声和偏差;
- 基因特异性:某些基因的预测性能显著优于其他基因;
- 变异类型覆盖:大多数工具只处理 missense,对 indel、splice 等支持有限;
- 解释性差:深度学习模型难以解释预测依据。
因此,致病性预测只是 ACMG 中的 supporting 证据,不能单独决定分类。
致病性预测算法对比
Section titled “致病性预测算法对比”不同代际和原理的预测算法在临床应用中各有侧重:
| 维度 | ||
|---|---|---|
4. CNV/SV 检测算法
Section titled “4. CNV/SV 检测算法”Read-pair 与 Read-depth 方法
Section titled “Read-pair 与 Read-depth 方法”CNV 检测的经典算法基于两种信号:
- Read-pair / Split-read:检测异常插入片段或断点;
- Read-depth:检测覆盖度异常区域。
代表工具:CNVnator、FREEC、CNVkit。
统计模型与 segmentation
Section titled “统计模型与 segmentation”Read-depth 方法的核心是 segmentation 算法:
- 将基因组分成 bin,计算每个 bin 的 read depth;
- 使用统计模型(如 CBS、HMM)检测覆盖度跳变;
- 合并相邻 bin 形成候选 CNV 区间。
对于需要精确断点的场景(如基因融合检测):
- Split-read:利用部分比对 reads 定位断点;
- De novo assembly:局部重装区域序列;
- Graph-based:在变异图上寻找最优路径。
CNV 质量评估
Section titled “CNV 质量评估”算法输出需要质量过滤:
- 覆盖度一致性:区域内 read depth 是否均匀;
- 边界清晰度:断点处信号是否 sharp;
- GC 偏好校正:排除 GC bias 导致的假阳性;
- 重复区域过滤:排除 segmental duplication 中的不可靠调用。
5. De novo 检测算法
Section titled “5. De novo 检测算法”De novo 变异检测的核心是亲本-子代基因型一致性检验:
H0: 子代变异由遗传或测序错误导致H1: 子代变异为真实的 de novo 事件算法会计算在给定亲本基因型和测序错误率下,观察到子代变异的概率。
- 测序深度:亲本和子代的覆盖度直接影响检测 power;
- 错误率模型:不同 platform 和 chemistry 的错误谱不同;
- 等位基因平衡:真实 de novo 应接近 50% VAF(杂合);
- 重复区域:mapping ambiguity 会增加假阳性。
代表工具:DeNovoGear、GATK PhaseByTransmission、TrioDeNovo。
De novo 检测工具通常输出质量分数(如 Q-score),反映:
- 亲本中未观察到该变异的置信度;
- 排除测序错误的置信度;
- 排除 mapping 伪影的置信度。
6. 家系分离分析算法
Section titled “6. 家系分离分析算法”孟德尔遗传检验
Section titled “孟德尔遗传检验”对于核心家系(trio 或 larger pedigree),算法会检验变异是否符合预期遗传模式:
- 常染色体显性:杂合变异应出现在所有 affected,不在 unaffected;
- 常染色体隐性:纯合或复合杂合变异与表型共分离;
- X 连锁:根据性别和遗传模式检验。
LOD Score 与连锁分析
Section titled “LOD Score 与连锁分析”对于多代家系,可以使用 LOD Score 量化变异与疾病的连锁程度:
- LOD > 3:支持连锁;
- LOD < -2:排除连锁。
现代工具常将共分离分析与ACMG 证据结合(如 PP1 Strong)。
7. 算法选择与临床实践
Section titled “7. 算法选择与临床实践”没有万能算法
Section titled “没有万能算法”不同算法适用于不同场景:
- WES/WGS 筛查:优先级排序算法(Exomiser、PhenIX);
- 单个变异分类:ACMG 自动化工具(InterVar、ClinGen Calculator);
- CNV 检测:read-depth + split-read 组合;
- 家系分析:de novo 检测 + 分离分析。
算法验证与性能评估
Section titled “算法验证与性能评估”在临床环境中使用算法前,需要评估:
- 敏感性:对已知致病变异的检出率;
- 特异性:对已知良性变异的假阳性率;
- 基因特异性性能:某些基因上表现可能很差;
- 人群适用性:训练数据与目标人群的匹配度。
算法的价值在于:
- 提高效率:自动化重复性工作;
- 减少遗漏:系统性地检查所有证据维度;
- 标准化流程:让不同实验室的解释更一致;
但最终临床判断仍需:
- 家系和表型背景:算法难以完全量化;
- 文献和数据库更新:新证据可能改变分类;
- 患者和医生沟通:算法分数需要转化为临床语言。