生物信息学中的机器学习
为什么要用机器学习分析生物序列
Section titled “为什么要用机器学习分析生物序列”生物信息学的核心挑战之一是从序列中识别功能性模式:调控元件在哪里?蛋白质如何折叠?突变会产生什么影响?
传统方法(如 PWM、HMM)依赖手工设计特征,需要专家知识来定义什么是重要的。但当面对以下情况时,这些方法遇到瓶颈:
- 组合性调控:多个 motif 的组合效应难以用简单规则描述
- 长程相互作用:远距离调控元件的影响超出传统模型的感受野
- 数据规模:大规模测序数据的手工标注成本极高
- 表示学习(Representation Learning)
- 让算法自动从原始数据中学习有意义的特征表示,而非依赖人工设计的特征工程。
- 归纳偏置(Inductive Bias)
- 模型架构本身引入的先验假设,如 CNN 的局部性、Transformer 的全局注意力。
- 迁移学习(Transfer Learning)
- 将在大规模数据上预训练得到的表示,迁移到下游特定任务中。
本章要解决什么问题
Section titled “本章要解决什么问题”本章从算法层视角,系统介绍生物序列深度学习的核心架构及其设计思想:
1. 序列表示基础
Section titled “1. 序列表示基础”如何将离散的碱基/氨基酸序列转化为连续的数值表示,使得机器学习模型能够处理。
2. 三种核心架构
Section titled “2. 三种核心架构”| 架构 | 核心归纳偏置 | 适用场景 |
|---|---|---|
| CNN | 局部卷积、位置不变性 | motif 检测、调控元件识别 |
| RNN/LSTM | 递归处理、时序依赖 | 基因预测、可变剪接分析 |
| Transformer | 全局自注意力、长程依赖 | 蛋白质结构预测、大规模预训练 |
3. 预训练与迁移
Section titled “3. 预训练与迁移”如何通过自监督预训练从海量无标注序列中学习通用表示,再迁移到下游任务。
建议按以下顺序阅读,形成从概念到具体、从基础到前沿的完整认知:
1. 序列深度学习
理解序列表示、核心架构对比、任务类型与经典方法的关系。
进入子主题2. CNN for Sequences
卷积操作、池化、特征图可视化;DeepBind、DeepSEA 等经典工作解析。
进入子主题3. RNN/LSTM for Sequences
隐状态、门控机制、梯度问题;双向 RNN 与多层堆叠。
进入子主题4. Transformer for Sequences
自注意力、位置编码、多头机制;现代生物语言模型的基础架构。
进入子主题5. 嵌入与语言模型
ESM、DNABERT 等 foundation models;表示迁移与下游应用。
进入子主题阅读本章前,建议熟悉:
- 生物层:测序 reads 与覆盖度、基因预测、蛋白质结构
- 模型层:概率模型、PWM/PSSM
- 算法层:基本的神经网络概念(层、激活函数、反向传播)
与经典方法的关系
Section titled “与经典方法的关系”深度学习并未完全取代经典方法。理解它们的互补关系很重要:
- 经典方法(PWM、HMM):提供可解释的归纳偏置,适合小数据量、高可解释性场景
- 深度学习方法:提供更强的表示能力,适合大规模数据、复杂模式识别
- 混合方法:在实际流程中常常结合使用,如用深度学习提取特征后接经典分类器