跳转到内容

生物信息学中的机器学习

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

为什么要用机器学习分析生物序列

Section titled “为什么要用机器学习分析生物序列”

生物信息学的核心挑战之一是从序列中识别功能性模式:调控元件在哪里?蛋白质如何折叠?突变会产生什么影响?

传统方法(如 PWM、HMM)依赖手工设计特征,需要专家知识来定义什么是重要的。但当面对以下情况时,这些方法遇到瓶颈:

  • 组合性调控:多个 motif 的组合效应难以用简单规则描述
  • 长程相互作用:远距离调控元件的影响超出传统模型的感受野
  • 数据规模:大规模测序数据的手工标注成本极高
表示学习(Representation Learning)
让算法自动从原始数据中学习有意义的特征表示,而非依赖人工设计的特征工程。
归纳偏置(Inductive Bias)
模型架构本身引入的先验假设,如 CNN 的局部性、Transformer 的全局注意力。
迁移学习(Transfer Learning)
将在大规模数据上预训练得到的表示,迁移到下游特定任务中。

本章从算法层视角,系统介绍生物序列深度学习的核心架构及其设计思想:

如何将离散的碱基/氨基酸序列转化为连续的数值表示,使得机器学习模型能够处理。

架构核心归纳偏置适用场景
CNN局部卷积、位置不变性motif 检测、调控元件识别
RNN/LSTM递归处理、时序依赖基因预测、可变剪接分析
Transformer全局自注意力、长程依赖蛋白质结构预测、大规模预训练

如何通过自监督预训练从海量无标注序列中学习通用表示,再迁移到下游任务。

建议按以下顺序阅读,形成从概念到具体、从基础到前沿的完整认知:

阅读本章前,建议熟悉:

深度学习并未完全取代经典方法。理解它们的互补关系很重要:

  • 经典方法(PWM、HMM):提供可解释的归纳偏置,适合小数据量、高可解释性场景
  • 深度学习方法:提供更强的表示能力,适合大规模数据、复杂模式识别
  • 混合方法:在实际流程中常常结合使用,如用深度学习提取特征后接经典分类器