跳转到内容

序列深度学习

快速概览

生物序列本质上是离散符号的线性排列。深度学习通过将这些符号转化为连续的数值嵌入(Embeddings),利用卷积、递归和注意力机制,捕获隐藏在碱基序列背后的复杂生物学规律。

  • 理解从离散字符串到连续向量空间的表示转换(One-hot, k-mer Embedding)
  • 掌握三大核心架构的归纳偏置:CNN 捕获局部 Motif,RNN 处理时序依赖,Transformer 建模长程相互作用
  • 建立从 Profile HMM 到神经序列模型的演进直觉
  • 认识"迁移学习"如何解决生物学标注数据稀缺的问题
所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

序列深度学习(Deep Learning for Sequences)是将深度神经网络应用于生物序列(DNA、RNA、蛋白质)分析的方法体系。它通过将离散的碱基/氨基酸符号转化为连续的数值向量(Embeddings),利用神经网络自动提取序列特征,从而实现功能预测、结构推断和生成建模等任务。

与传统生物信息学方法依赖手工设计的特征(如 k-mer 频率、序列保守性评分)不同,深度学习试图让模型自动从数据中”学到”哪些特征是重要的。这一思路的转变,在蛋白质结构预测(AlphaFold)等领域已经产生了革命性的影响。

传统生物信息学方法在以下场景中面临瓶颈:

  • 特征工程困难:很多生物学问题(如蛋白质-DNA 结合特异性)涉及复杂的非线性交互,难以用手工特征充分描述;
  • 高维稀疏数据:序列空间极其庞大(如蛋白质的 20 种氨基酸组成的序列空间),传统统计方法在高维下容易过拟合;
  • 跨任务迁移困难:不同预测任务(如结合位点预测 vs. 结构预测)需要重新设计特征和模型。

深度学习通过端到端的学习框架,将特征提取和预测合二为一,缓解了上述问题。尤其是在蛋白质结构预测领域,AlphaFold2 将几十年的”蛋白质折叠问题”推进到了接近实验精度的高度,充分展示了深度学习在生物序列分析中的潜力。

1. 演进:从 Profile HMM 到神经网络

Section titled “1. 演进:从 Profile HMM 到神经网络”

Profile HMM中,我们通过状态转移(M/I/D)来刻画序列家族。神经网络可以看作是这种概率模型的非线性、高维扩展:

  • Profile HMM:使用显式状态和线性转换,解释性强,但难以捕获非线性的长程依赖。状态空间是手工设计的(匹配、插入、删除),灵活性有限。
  • 神经网络:通过隐藏层提取特征,虽然解释性较弱(黑盒),但能通过多层嵌套识别极其复杂的变异模式和结构约束。每一层都可以看作是对输入的一种非线性变换。

关键区别

维度Profile HMM神经网络
特征提取手工设计(PAM/BLOSUM 矩阵)自动学习
非线性建模能力有限多层非线性变换
长程依赖需要显式建模Transformer 天然支持
可解释性高(状态含义明确)低(黑盒)
数据需求较少较多
训练方式EM 算法梯度下降

机器学习模型无法直接读入字符串,必须进行编码。选择合适的编码方式,是序列深度学习的第一步,也是影响模型性能的关键因素。

One-hot 编码
将 A, C, G, T 映射为互相正交的 4 维向量。优点是简单无损,缺点是无法表达碱基间的生化相似性(如 A 和 G 同为嘌呤)。
k-mer 嵌入(Embedding)
模仿 NLP 中的词向量。将序列切分为重叠的 k-mers(如 3-mer),学习每个 k-mer 在高维空间中的稠密表示。DNA 中 k=3 时有 64 种 3-mer,蛋白质中 k=1 就有 20 种氨基酸。
物理化学编码
直接输入氨基酸的电荷、疏水性、分子量等特征,将领域知识融入模型。
预训练嵌入
使用大规模无标注序列预训练得到的嵌入向量(如 ESM、ProtBERT),已经编码了进化信息和结构约束。

One-hot 编码示例

A=[1,0,0,0],C=[0,1,0,0],G=[0,0,1,0],T=[0,0,0,1]\text{A} = [1, 0, 0, 0], \quad \text{C} = [0, 1, 0, 0], \quad \text{G} = [0, 0, 1, 0], \quad \text{T} = [0, 0, 0, 1]

对于长度为 LL 的序列,One-hot 编码产生一个 L×4L \times 4 的矩阵(DNA)或 L×20L \times 20 的矩阵(蛋白质)。

k-mer 嵌入的优势:与 One-hot 不同,k-mer 嵌入可以在向量空间中捕获相似性。例如,“ACG”和”AGG”在嵌入空间中应该比”ACG”和”TTT”更接近,因为前者只有一个碱基不同。

3. 架构选择与归纳偏置(Inductive Bias)

Section titled “3. 架构选择与归纳偏置(Inductive Bias)”

选择哪种神经网络架构取决于我们要解决的生物学问题。不同的架构具有不同的归纳偏置(Inductive Bias),即模型在训练前就内置的关于数据结构的假设。

架构核心偏置擅长领域示例应用
CNN局部性、平移不变性识别短模式(Motif)转录因子结合位点识别(DeepBind)、剪接位点预测
RNN/LSTM时序依赖、变长处理处理具有序列逻辑的过程基因结构标注、RNA 剪接预测、蛋白质二级结构预测
Transformer全局注意力(Attention)捕获残基间的长程相互作用蛋白质结构预测(AlphaFold)、大语言模型(ESM)

卷积神经网络(Convolutional Neural Network, CNN)通过滑动卷积核(convolutional filter)在序列上扫描,检测局部模式。在生物序列中,这些局部模式通常对应于序列 Motif(如转录因子结合位点)。

CNN 的优势

  • 平移不变性:同一个 Motif 出现在序列的不同位置,CNN 能用同一组参数检测;
  • 参数共享:相比于全连接网络,CNN 的参数量大幅减少;
  • 层次化特征提取:浅层卷积核检测简单模式(如单个碱基偏好),深层卷积核检测复杂模式(如组合 Motif)。

典型应用:DeepBind(预测蛋白质-RNA/DNA 结合特异性)、Basset(预测染色质可及性)。

循环神经网络(Recurrent Neural Network, RNN)通过隐藏状态(hidden state)在序列上逐步传递信息,理论上可以捕获任意长度的依赖关系。但在实践中,标准 RNN 面临梯度消失/爆炸问题。

长短期记忆网络(Long Short-Term Memory, LSTM)通过门控机制(遗忘门、输入门、输出门)解决了梯度消失问题,成为序列建模的经典架构。

RNN 的优势

  • 天然适合变长序列处理;
  • 能建模序列中的长程依赖(理论上);
  • 适合需要逐步决策的任务(如逐碱基标注)。

局限

  • 训练速度慢(序列必须逐步处理,无法并行);
  • 虽然理论上能捕获长程依赖,但实践中仍有限制(约 100-500 步)。

Transformer 架构通过自注意力机制(Self-Attention)实现了对序列中所有位置的同时访问,彻底解决了长程依赖问题。

自注意力的核心计算

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V

其中 QQ(Query)、KK(Key)、VV(Value)分别是输入序列的线性变换,dkd_k 是 Key 的维度。

Transformer 在生物序列中的突破

  • AlphaFold2:使用 Evoformer 架构(基于 Transformer),通过多序列比对(MSA)中的进化信息预测蛋白质三维结构,达到了接近实验精度(CASP14 中 GDT 分数 > 90);
  • ESM (Evolutionary Scale Modeling):Meta AI 基于大规模蛋白质序列预训练的 Transformer 模型,嵌入向量已编码进化约束和结构信息;
  • Enformer:DeepMind 用于预测基因表达调控的 Transformer 模型,能建模长达 200 kb 的序列。

生物学中最大的挑战是:已知序列多,标注数据(如功能实验)少。迁移学习(Transfer Learning)是解决这一矛盾的核心策略。

  • 预训练(Pre-training):在海量无标注序列上进行自监督学习(如掩码语言建模 Masked Language Modeling),让模型学习序列的”通用文法”。例如,ESM-2 在超过 2.5 亿条蛋白质序列上预训练,学习了蛋白质序列的进化约束和结构偏好。
  • 微调(Fine-tuning):在特定的、小规模的标注实验数据上对模型进行二次训练。预训练模型已经具备了丰富的序列表示能力,微调只需要少量标注数据就能达到很好的效果。

自监督预训练的常见任务

预训练任务思想代表模型
掩码语言建模(MLM)随机遮盖部分位置,预测被遮盖的字符ESM, ProtBERT
下一个词预测(CLM)给定前缀,预测下一个氨基酸/碱基ProtGPT2
对比学习通过数据增强构造正负样本对,学习区分性表示MSA Transformer
结构预测辅助同时预测序列和结构,结构作为额外监督信号AlphaFold

迁移学习在生物信息学中的实际效果

  • 在蛋白质功能预测任务中,使用 ESM 预训练嵌入微调后,仅需原始标注数据量的 10-20% 就能达到同等效果;
  • 在非编码变异效应预测中,基于预训练模型的准确率显著超过基于手工特征的方法。

序列深度学习在以下领域已经展现出显著优势:

  • 蛋白质结构预测:AlphaFold2 将 CASP 竞赛的预测精度从约 40 GDT 提升到 >90 GDT;
  • 基因调控预测:Enformer、Basenji 等模型能从 DNA 序列预测基因表达水平、染色质状态和转录因子结合;
  • 变异效应预测:从 CADD 到基于 Transformer 的模型,预测单核苷酸变异(SNV)对蛋白质功能或基因调控的影响;
  • 蛋白质设计:利用预训练语言模型生成具有目标属性的全新蛋白质序列;
  • 宏基因组分析:对宏基因组 contigs 进行功能注释和分类。