跳转到内容

生物信息学中的机器学习

为什么要用机器学习分析生物序列

生物信息学的核心挑战之一是从序列中识别功能性模式：调控元件在哪里？蛋白质如何折叠？突变会产生什么影响？

传统方法（如 PWM、HMM）依赖手工设计特征，需要专家知识来定义什么是重要的。但当面对以下情况时，这些方法遇到瓶颈：

组合性调控：多个 motif 的组合效应难以用简单规则描述
长程相互作用：远距离调控元件的影响超出传统模型的感受野
数据规模：大规模测序数据的手工标注成本极高

表示学习（Representation Learning）: 让算法自动从原始数据中学习有意义的特征表示，而非依赖人工设计的特征工程。
归纳偏置（Inductive Bias）: 模型架构本身引入的先验假设，如 CNN 的局部性、Transformer 的全局注意力。
迁移学习（Transfer Learning）: 将在大规模数据上预训练得到的表示，迁移到下游特定任务中。

本章要解决什么问题

本章从算法层视角，系统介绍生物序列深度学习的核心架构及其设计思想：

1. 序列表示基础

如何将离散的碱基/氨基酸序列转化为连续的数值表示，使得机器学习模型能够处理。

2. 三种核心架构

架构	核心归纳偏置	适用场景
CNN	局部卷积、位置不变性	motif 检测、调控元件识别
RNN/LSTM	递归处理、时序依赖	基因预测、可变剪接分析
Transformer	全局自注意力、长程依赖	蛋白质结构预测、大规模预训练

3. 预训练与迁移

如何通过自监督预训练从海量无标注序列中学习通用表示，再迁移到下游任务。

学习路径

建议按以下顺序阅读，形成从概念到具体、从基础到前沿的完整认知：

1. 序列深度学习

理解序列表示、核心架构对比、任务类型与经典方法的关系。

进入子主题

2. CNN for Sequences

卷积操作、池化、特征图可视化；DeepBind、DeepSEA 等经典工作解析。

进入子主题

3. RNN/LSTM for Sequences

隐状态、门控机制、梯度问题；双向 RNN 与多层堆叠。

进入子主题

4. Transformer for Sequences

自注意力、位置编码、多头机制；现代生物语言模型的基础架构。

进入子主题

5. 嵌入与语言模型

ESM、DNABERT 等 foundation models；表示迁移与下游应用。

进入子主题

前置知识

阅读本章前，建议熟悉：

生物层：测序 reads 与覆盖度、基因预测、蛋白质结构
模型层：概率模型、PWM/PSSM
算法层：基本的神经网络概念（层、激活函数、反向传播）

与经典方法的关系

深度学习并未完全取代经典方法。理解它们的互补关系很重要：

经典方法（PWM、HMM）：提供可解释的归纳偏置，适合小数据量、高可解释性场景
深度学习方法：提供更强的表示能力，适合大规模数据、复杂模式识别
混合方法：在实际流程中常常结合使用，如用深度学习提取特征后接经典分类器

与其他板块的连接