数据库与注释系统一览
生物信息学数据库并非平面的资源列表,而是围绕特定生物学对象(基因、转录本、变异、蛋白、样本等)组织的信息体系。理解不同数据库的中心对象、ID 命名规则和版本背景,是正确整合与解释数据的前提。
- 数据库的本质差异在于其中心对象:注释系统围绕基因/转录本,变异数据库围绕位点/等位基因,蛋白资源围绕功能/结构,队列资源围绕样本/实验。
- 跨数据库整合的关键障碍是对象层级、ID 体系和参考版本的不一致,而非技术接口。
- 选择数据库时应先明确研究问题涉及什么对象类型,再寻找对应的资源族。
生物信息学研究中涉及的数据库与注释资源数量庞大,从 Ensembl、RefSeq 到 ClinVar、gnomAD,再到 GEO、SRA,初学者常感无所适从。一个系统性的认知框架是:不同类型的数据库围绕不同的中心生物学对象组织信息。
可将主要资源分为四类对象体系:
| 资源类别 | 中心对象 | 典型资源 | 核心问题 |
|---|---|---|---|
| 注释系统 | 基因、转录本、外显子、基因组组装 | Ensembl、RefSeq、GENCODE | 基因的结构与坐标定义 |
| 变异数据库 | 变异位点、rsID、临床意义、群体频率 | dbSNP、ClinVar、gnomAD | 变异的识别、频率与功能影响 |
| 蛋白与功能资源 | 蛋白质、结构域、三维结构、通路 | UniProt、PDB、KEGG | 分子功能与系统通路 |
| 公共数据与队列 | 样本、实验、原始数据、处理结果 | GEO、SRA、TCGA | 数据复用与元信息 |
理解这一分类框架后,核心问题转化为:我当前的研究问题涉及什么对象?该对象在哪套 ID 体系和参考版本中被定义?
只有回答了这一问题,才能避免在错误的数据库中查找信息,或将不同对象层级的记录错误地等同起来。
对象层级匹配的重要性
Section titled “对象层级匹配的重要性”实践中常见的信息误用,往往源于对象层级的不匹配:
- 基因 vs. 转录本层级混淆:试图解释转录本水平的现象,却仅查询基因符号(gene symbol),忽视了同一基因可能有多个选择性剪接转录本的事实;
- 变异数据库功能误置:判断变异的人群频率时查询了 ClinVar(临床审阅数据库),而判断临床意义时却仅参考了 gnomAD(群体频率数据库);
- 数据类型识别错误:复用公开数据时未区分原始测序 reads 与经过处理后的表达矩阵,导致下游分析假设与数据实际性质不符;
- 版本体系忽视:整合多个资源时未核查其参考基因组版本(assembly)和注释版本(release)的一致性。
这些错误的共同特征是:在错误的对象层级或版本背景下寻找答案。建立清晰的对象-数据库映射意识,是避免此类问题的关键。
先分清你在查哪一类资源族
Section titled “先分清你在查哪一类资源族”这张图展示了不同类型的数据库与其中心生物学对象之间的关系。
| 维度 | 中心对象 | 代表资源 |
|---|---|---|
| 注释系统 | gene / transcript / exon / assembly / 注释版本 | Ensembl、RefSeq、GENCODE |
| 变异知识库 | variant / rsID / 临床意义 / 群体频率 | dbSNP、ClinVar、gnomAD |
| 蛋白与功能资源 | protein / domain / structure / pathway | UniProt、PDB、KEGG |
| 公共数据与队列 | sample / study / raw reads / processed matrices / metadata | GEO、SRA、TCGA |
常见资源族的角色
Section titled “常见资源族的角色”注释系统:Ensembl、RefSeq、GENCODE
Section titled “注释系统:Ensembl、RefSeq、GENCODE”这类资源最适合回答的是:
- 一个 gene 在当前 assembly 上有哪些 transcript;
- transcript / exon / CDS 的结构如何;
- 当前分析所依赖的注释对象究竟来自哪套体系。
它们的差别往往体现在:
- ID 命名规则不同;
- release / version 更新节奏不同;
- 注释策略和覆盖范围不同;
- 与特定物种或分析场景的耦合程度不同。
变异数据库:dbSNP、ClinVar、gnomAD
Section titled “变异数据库:dbSNP、ClinVar、gnomAD”这类资源看起来都”和变异有关”,但回答的问题并不一样:
- dbSNP:更偏”这个变异是否是已知记录”;
- ClinVar:更偏”这个变异是否有临床解释与审阅状态”;
- gnomAD:更偏”这个变异在人群中常见还是罕见”。
因此,把它们视为同义资源会直接导致解释偏差。
蛋白与功能资源:UniProt、PDB、KEGG
Section titled “蛋白与功能资源:UniProt、PDB、KEGG”这类资源不一定定义”坐标上的注释对象”,但它们对解释层非常重要:
- UniProt 把 gene / transcript 进一步接到 protein 层功能上;
- PDB 提供结构层线索;
- KEGG 帮助把结果放回 pathway 或功能网络。
如果一个结果只停留在 transcript 或 variant 层而不继续走向蛋白/通路层,解释往往还不完整。
公共数据与队列资源:GEO、SRA、TCGA
Section titled “公共数据与队列资源:GEO、SRA、TCGA”这类资源的关键不是”有没有数据”,而是先判断你需要哪一种对象:
- 原始测序 reads;
- 项目或样本元信息;
- 处理后的表达矩阵或队列结果;
- 统一整理后的大型项目数据。
因此,查公开数据时最容易踩的坑,不是搜不到,而是找到了错误层的数据对象。
选择资源时,先问自己什么问题
Section titled “选择资源时,先问自己什么问题”| 场景 | 推荐选择 | 原因 |
|---|---|---|
| 我要确认 gene / transcript 注释与坐标背景 | 先去注释系统 | 这一步解决的是 assembly、transcript 结构和注释对象边界问题。 |
| 我要判断一个变异在人群中是否常见 | 先去群体频率数据库 | 频率问题和临床意义问题不是同一类判断。 |
| 我要判断一个变异是否已有临床解释 | 先去临床变异数据库 | 临床审阅状态与群体频率不能互相替代。 |
| 我要把结果连到蛋白功能或通路层面 | 再接蛋白/功能资源 | 这一步解决的是 protein、structure、pathway 层的解释。 |
| 我要复用公开实验或项目数据 | 先区分 raw data 与 processed data | GEO、SRA、TCGA 这类资源里最先要分清的是对象层,而不是站点名称。 |
示例:候选变异的层级化注释流程
Section titled “示例:候选变异的层级化注释流程”假设在 GRCh38 参考背景下识别出一个候选变异位点,如何系统性地整合多数据库信息进行解释?以下是一种分层的查询策略:
步骤 1:定位注释背景
- 查询 Ensembl 或 RefSeq,确认该位点位于哪个基因/转录本的哪个区域(外显子、内含子、UTR、基因间区)
- 记录所使用的注释版本,确保与后续分析一致
步骤 2:已知性识别
- 查询 dbSNP,确认该位点是否为已记录的变异(获得 rsID)
- 区分”已知变异”与”新发现位点”,两者在后续验证策略上有所不同
步骤 3:人群频率评估
- 查询 gnomAD 等群体频率数据库
- 判断该变异在一般人群中的出现频率:高频变异通常为良性多态,低频变异可能具有功能或病理意义
步骤 4:临床意义查询(如适用)
- 查询 ClinVar,查看该变异是否有临床实验室的审阅记录和致病性分类
- 关注审阅状态(review status)和证据级别
步骤 5:功能层面解释(如编码区变异)
- 查询 UniProt 了解蛋白功能域信息
- 查询 PDB 获取结构背景(如影响已知结构区域)
- 查询 KEGG 等通路数据库,评估对生物通路的可能影响
核心认知:数据库整合的本质是”按对象层级和问题类型逐层衔接”,而非在单一网站寻找”最终答案”。每一层数据库仅回答特定类型的问题,整合的价值在于建立完整的解释链条。