序列深度学习
生物序列本质上是离散符号的线性排列。深度学习通过将这些符号转化为连续的数值嵌入(Embeddings),利用卷积、递归和注意力机制,捕获隐藏在碱基序列背后的复杂生物学规律。
- 理解从离散字符串到连续向量空间的表示转换(One-hot, k-mer Embedding)
- 掌握三大核心架构的归纳偏置:CNN 捕获局部 Motif,RNN 处理时序依赖,Transformer 建模长程相互作用
- 建立从 Profile HMM 到神经序列模型的演进直觉
- 认识"迁移学习"如何解决生物学标注数据稀缺的问题
序列深度学习(Deep Learning for Sequences)是将深度神经网络应用于生物序列(DNA、RNA、蛋白质)分析的方法体系。它通过将离散的碱基/氨基酸符号转化为连续的数值向量(Embeddings),利用神经网络自动提取序列特征,从而实现功能预测、结构推断和生成建模等任务。
与传统生物信息学方法依赖手工设计的特征(如 k-mer 频率、序列保守性评分)不同,深度学习试图让模型自动从数据中”学到”哪些特征是重要的。这一思路的转变,在蛋白质结构预测(AlphaFold)等领域已经产生了革命性的影响。
传统生物信息学方法在以下场景中面临瓶颈:
- 特征工程困难:很多生物学问题(如蛋白质-DNA 结合特异性)涉及复杂的非线性交互,难以用手工特征充分描述;
- 高维稀疏数据:序列空间极其庞大(如蛋白质的 20 种氨基酸组成的序列空间),传统统计方法在高维下容易过拟合;
- 跨任务迁移困难:不同预测任务(如结合位点预测 vs. 结构预测)需要重新设计特征和模型。
深度学习通过端到端的学习框架,将特征提取和预测合二为一,缓解了上述问题。尤其是在蛋白质结构预测领域,AlphaFold2 将几十年的”蛋白质折叠问题”推进到了接近实验精度的高度,充分展示了深度学习在生物序列分析中的潜力。
1. 演进:从 Profile HMM 到神经网络
Section titled “1. 演进:从 Profile HMM 到神经网络”在Profile HMM中,我们通过状态转移(M/I/D)来刻画序列家族。神经网络可以看作是这种概率模型的非线性、高维扩展:
- Profile HMM:使用显式状态和线性转换,解释性强,但难以捕获非线性的长程依赖。状态空间是手工设计的(匹配、插入、删除),灵活性有限。
- 神经网络:通过隐藏层提取特征,虽然解释性较弱(黑盒),但能通过多层嵌套识别极其复杂的变异模式和结构约束。每一层都可以看作是对输入的一种非线性变换。
关键区别:
| 维度 | Profile HMM | 神经网络 |
|---|---|---|
| 特征提取 | 手工设计(PAM/BLOSUM 矩阵) | 自动学习 |
| 非线性建模 | 能力有限 | 多层非线性变换 |
| 长程依赖 | 需要显式建模 | Transformer 天然支持 |
| 可解释性 | 高(状态含义明确) | 低(黑盒) |
| 数据需求 | 较少 | 较多 |
| 训练方式 | EM 算法 | 梯度下降 |
2. 序列的数值化表示
Section titled “2. 序列的数值化表示”机器学习模型无法直接读入字符串,必须进行编码。选择合适的编码方式,是序列深度学习的第一步,也是影响模型性能的关键因素。
- One-hot 编码
- 将 A, C, G, T 映射为互相正交的 4 维向量。优点是简单无损,缺点是无法表达碱基间的生化相似性(如 A 和 G 同为嘌呤)。
- k-mer 嵌入(Embedding)
- 模仿 NLP 中的词向量。将序列切分为重叠的 k-mers(如 3-mer),学习每个 k-mer 在高维空间中的稠密表示。DNA 中 k=3 时有 64 种 3-mer,蛋白质中 k=1 就有 20 种氨基酸。
- 物理化学编码
- 直接输入氨基酸的电荷、疏水性、分子量等特征,将领域知识融入模型。
- 预训练嵌入
- 使用大规模无标注序列预训练得到的嵌入向量(如 ESM、ProtBERT),已经编码了进化信息和结构约束。
One-hot 编码示例:
对于长度为 的序列,One-hot 编码产生一个 的矩阵(DNA)或 的矩阵(蛋白质)。
k-mer 嵌入的优势:与 One-hot 不同,k-mer 嵌入可以在向量空间中捕获相似性。例如,“ACG”和”AGG”在嵌入空间中应该比”ACG”和”TTT”更接近,因为前者只有一个碱基不同。
3. 架构选择与归纳偏置(Inductive Bias)
Section titled “3. 架构选择与归纳偏置(Inductive Bias)”选择哪种神经网络架构取决于我们要解决的生物学问题。不同的架构具有不同的归纳偏置(Inductive Bias),即模型在训练前就内置的关于数据结构的假设。
| 架构 | 核心偏置 | 擅长领域 | 示例应用 |
|---|---|---|---|
| CNN | 局部性、平移不变性 | 识别短模式(Motif) | 转录因子结合位点识别(DeepBind)、剪接位点预测 |
| RNN/LSTM | 时序依赖、变长处理 | 处理具有序列逻辑的过程 | 基因结构标注、RNA 剪接预测、蛋白质二级结构预测 |
| Transformer | 全局注意力(Attention) | 捕获残基间的长程相互作用 | 蛋白质结构预测(AlphaFold)、大语言模型(ESM) |
CNN:局部模式识别器
Section titled “CNN:局部模式识别器”卷积神经网络(Convolutional Neural Network, CNN)通过滑动卷积核(convolutional filter)在序列上扫描,检测局部模式。在生物序列中,这些局部模式通常对应于序列 Motif(如转录因子结合位点)。
CNN 的优势:
- 平移不变性:同一个 Motif 出现在序列的不同位置,CNN 能用同一组参数检测;
- 参数共享:相比于全连接网络,CNN 的参数量大幅减少;
- 层次化特征提取:浅层卷积核检测简单模式(如单个碱基偏好),深层卷积核检测复杂模式(如组合 Motif)。
典型应用:DeepBind(预测蛋白质-RNA/DNA 结合特异性)、Basset(预测染色质可及性)。
RNN/LSTM:序列记忆器
Section titled “RNN/LSTM:序列记忆器”循环神经网络(Recurrent Neural Network, RNN)通过隐藏状态(hidden state)在序列上逐步传递信息,理论上可以捕获任意长度的依赖关系。但在实践中,标准 RNN 面临梯度消失/爆炸问题。
长短期记忆网络(Long Short-Term Memory, LSTM)通过门控机制(遗忘门、输入门、输出门)解决了梯度消失问题,成为序列建模的经典架构。
RNN 的优势:
- 天然适合变长序列处理;
- 能建模序列中的长程依赖(理论上);
- 适合需要逐步决策的任务(如逐碱基标注)。
局限:
- 训练速度慢(序列必须逐步处理,无法并行);
- 虽然理论上能捕获长程依赖,但实践中仍有限制(约 100-500 步)。
Transformer:全局注意力革命
Section titled “Transformer:全局注意力革命”Transformer 架构通过自注意力机制(Self-Attention)实现了对序列中所有位置的同时访问,彻底解决了长程依赖问题。
自注意力的核心计算:
其中 (Query)、(Key)、(Value)分别是输入序列的线性变换, 是 Key 的维度。
Transformer 在生物序列中的突破:
- AlphaFold2:使用 Evoformer 架构(基于 Transformer),通过多序列比对(MSA)中的进化信息预测蛋白质三维结构,达到了接近实验精度(CASP14 中 GDT 分数 > 90);
- ESM (Evolutionary Scale Modeling):Meta AI 基于大规模蛋白质序列预训练的 Transformer 模型,嵌入向量已编码进化约束和结构信息;
- Enformer:DeepMind 用于预测基因表达调控的 Transformer 模型,能建模长达 200 kb 的序列。
4. 迁移学习:数据稀缺的解药
Section titled “4. 迁移学习:数据稀缺的解药”生物学中最大的挑战是:已知序列多,标注数据(如功能实验)少。迁移学习(Transfer Learning)是解决这一矛盾的核心策略。
- 预训练(Pre-training):在海量无标注序列上进行自监督学习(如掩码语言建模 Masked Language Modeling),让模型学习序列的”通用文法”。例如,ESM-2 在超过 2.5 亿条蛋白质序列上预训练,学习了蛋白质序列的进化约束和结构偏好。
- 微调(Fine-tuning):在特定的、小规模的标注实验数据上对模型进行二次训练。预训练模型已经具备了丰富的序列表示能力,微调只需要少量标注数据就能达到很好的效果。
自监督预训练的常见任务:
| 预训练任务 | 思想 | 代表模型 |
|---|---|---|
| 掩码语言建模(MLM) | 随机遮盖部分位置,预测被遮盖的字符 | ESM, ProtBERT |
| 下一个词预测(CLM) | 给定前缀,预测下一个氨基酸/碱基 | ProtGPT2 |
| 对比学习 | 通过数据增强构造正负样本对,学习区分性表示 | MSA Transformer |
| 结构预测辅助 | 同时预测序列和结构,结构作为额外监督信号 | AlphaFold |
迁移学习在生物信息学中的实际效果:
- 在蛋白质功能预测任务中,使用 ESM 预训练嵌入微调后,仅需原始标注数据量的 10-20% 就能达到同等效果;
- 在非编码变异效应预测中,基于预训练模型的准确率显著超过基于手工特征的方法。
序列深度学习在以下领域已经展现出显著优势:
- 蛋白质结构预测:AlphaFold2 将 CASP 竞赛的预测精度从约 40 GDT 提升到 >90 GDT;
- 基因调控预测:Enformer、Basenji 等模型能从 DNA 序列预测基因表达水平、染色质状态和转录因子结合;
- 变异效应预测:从 CADD 到基于 Transformer 的模型,预测单核苷酸变异(SNV)对蛋白质功能或基因调控的影响;
- 蛋白质设计:利用预训练语言模型生成具有目标属性的全新蛋白质序列;
- 宏基因组分析:对宏基因组 contigs 进行功能注释和分类。