数据库与注释系统一览

快速概览

生物信息学数据库并非平面的资源列表，而是围绕特定生物学对象（基因、转录本、变异、蛋白、样本等）组织的信息体系。理解不同数据库的中心对象、ID 命名规则和版本背景，是正确整合与解释数据的前提。

数据库的本质差异在于其中心对象：注释系统围绕基因/转录本，变异数据库围绕位点/等位基因，蛋白资源围绕功能/结构，队列资源围绕样本/实验。
跨数据库整合的关键障碍是对象层级、ID 体系和参考版本的不一致，而非技术接口。
选择数据库时应先明确研究问题涉及什么对象类型，再寻找对应的资源族。

问题背景

生物信息学研究中涉及的数据库与注释资源数量庞大，从 Ensembl、RefSeq 到 ClinVar、gnomAD，再到 GEO、SRA，初学者常感无所适从。一个系统性的认知框架是：不同类型的数据库围绕不同的中心生物学对象组织信息。

可将主要资源分为四类对象体系：

资源类别	中心对象	典型资源	核心问题
注释系统	基因、转录本、外显子、基因组组装	Ensembl、RefSeq、GENCODE	基因的结构与坐标定义
变异数据库	变异位点、rsID、临床意义、群体频率	dbSNP、ClinVar、gnomAD	变异的识别、频率与功能影响
蛋白与功能资源	蛋白质、结构域、三维结构、通路	UniProt、PDB、KEGG	分子功能与系统通路
公共数据与队列	样本、实验、原始数据、处理结果	GEO、SRA、TCGA	数据复用与元信息

理解这一分类框架后，核心问题转化为：我当前的研究问题涉及什么对象？该对象在哪套 ID 体系和参考版本中被定义？

只有回答了这一问题，才能避免在错误的数据库中查找信息，或将不同对象层级的记录错误地等同起来。

对象层级匹配的重要性

实践中常见的信息误用，往往源于对象层级的不匹配：

基因 vs. 转录本层级混淆：试图解释转录本水平的现象，却仅查询基因符号（gene symbol），忽视了同一基因可能有多个选择性剪接转录本的事实；
变异数据库功能误置：判断变异的人群频率时查询了 ClinVar（临床审阅数据库），而判断临床意义时却仅参考了 gnomAD（群体频率数据库）；
数据类型识别错误：复用公开数据时未区分原始测序 reads 与经过处理后的表达矩阵，导致下游分析假设与数据实际性质不符；
版本体系忽视：整合多个资源时未核查其参考基因组版本（assembly）和注释版本（release）的一致性。

这些错误的共同特征是：在错误的对象层级或版本背景下寻找答案。建立清晰的对象-数据库映射意识，是避免此类问题的关键。

先分清你在查哪一类资源族

这张图展示了不同类型的数据库与其中心生物学对象之间的关系。

维度	中心对象	代表资源
注释系统	gene / transcript / exon / assembly / 注释版本	Ensembl、RefSeq、GENCODE
变异知识库	variant / rsID / 临床意义 / 群体频率	dbSNP、ClinVar、gnomAD
蛋白与功能资源	protein / domain / structure / pathway	UniProt、PDB、KEGG
公共数据与队列	sample / study / raw reads / processed matrices / metadata	GEO、SRA、TCGA

常见资源族的角色

注释系统：Ensembl、RefSeq、GENCODE

这类资源最适合回答的是：

一个 gene 在当前 assembly 上有哪些 transcript；
transcript / exon / CDS 的结构如何；
当前分析所依赖的注释对象究竟来自哪套体系。

它们的差别往往体现在：

ID 命名规则不同；
release / version 更新节奏不同；
注释策略和覆盖范围不同；
与特定物种或分析场景的耦合程度不同。

变异数据库：dbSNP、ClinVar、gnomAD

这类资源看起来都”和变异有关”，但回答的问题并不一样：

dbSNP：更偏”这个变异是否是已知记录”；
ClinVar：更偏”这个变异是否有临床解释与审阅状态”；
gnomAD：更偏”这个变异在人群中常见还是罕见”。

因此，把它们视为同义资源会直接导致解释偏差。

蛋白与功能资源：UniProt、PDB、KEGG

这类资源不一定定义”坐标上的注释对象”，但它们对解释层非常重要：

UniProt 把 gene / transcript 进一步接到 protein 层功能上；
PDB 提供结构层线索；
KEGG 帮助把结果放回 pathway 或功能网络。

如果一个结果只停留在 transcript 或 variant 层而不继续走向蛋白/通路层，解释往往还不完整。

公共数据与队列资源：GEO、SRA、TCGA

这类资源的关键不是”有没有数据”，而是先判断你需要哪一种对象：

原始测序 reads；
项目或样本元信息；
处理后的表达矩阵或队列结果；
统一整理后的大型项目数据。

因此，查公开数据时最容易踩的坑，不是搜不到，而是找到了错误层的数据对象。

选择资源时，先问自己什么问题

场景	推荐选择	原因
我要确认 gene / transcript 注释与坐标背景	先去注释系统	这一步解决的是 assembly、transcript 结构和注释对象边界问题。
我要判断一个变异在人群中是否常见	先去群体频率数据库	频率问题和临床意义问题不是同一类判断。
我要判断一个变异是否已有临床解释	先去临床变异数据库	临床审阅状态与群体频率不能互相替代。
我要把结果连到蛋白功能或通路层面	再接蛋白/功能资源	这一步解决的是 protein、structure、pathway 层的解释。
我要复用公开实验或项目数据	先区分 raw data 与 processed data	GEO、SRA、TCGA 这类资源里最先要分清的是对象层，而不是站点名称。

示例：候选变异的层级化注释流程

假设在 GRCh38 参考背景下识别出一个候选变异位点，如何系统性地整合多数据库信息进行解释？以下是一种分层的查询策略：

步骤 1：定位注释背景

查询 Ensembl 或 RefSeq，确认该位点位于哪个基因/转录本的哪个区域（外显子、内含子、UTR、基因间区）
记录所使用的注释版本，确保与后续分析一致

步骤 2：已知性识别

查询 dbSNP，确认该位点是否为已记录的变异（获得 rsID）
区分”已知变异”与”新发现位点”，两者在后续验证策略上有所不同

步骤 3：人群频率评估

查询 gnomAD 等群体频率数据库
判断该变异在一般人群中的出现频率：高频变异通常为良性多态，低频变异可能具有功能或病理意义

步骤 4：临床意义查询（如适用）

查询 ClinVar，查看该变异是否有临床实验室的审阅记录和致病性分类
关注审阅状态（review status）和证据级别

步骤 5：功能层面解释（如编码区变异）

查询 UniProt 了解蛋白功能域信息
查询 PDB 获取结构背景（如影响已知结构区域）
查询 KEGG 等通路数据库，评估对生物通路的可能影响

核心认知：数据库整合的本质是”按对象层级和问题类型逐层衔接”，而非在单一网站寻找”最终答案”。每一层数据库仅回答特定类型的问题，整合的价值在于建立完整的解释链条。

数据库与注释系统一览

问题背景

对象层级匹配的重要性

先分清你在查哪一类资源族

常见资源族的角色

注释系统：Ensembl、RefSeq、GENCODE

变异数据库：dbSNP、ClinVar、gnomAD

蛋白与功能资源：UniProt、PDB、KEGG

公共数据与队列资源：GEO、SRA、TCGA

选择资源时，先问自己什么问题

示例：候选变异的层级化注释流程

与真实工具或流程的连接

常见误区

相关页面

数据库与注释系统一览

问题背景

对象层级匹配的重要性

先分清你在查哪一类资源族

常见资源族的角色

注释系统：Ensembl、RefSeq、GENCODE

变异数据库：dbSNP、ClinVar、gnomAD

蛋白与功能资源：UniProt、PDB、KEGG

公共数据与队列资源：GEO、SRA、TCGA

选择资源时，先问自己什么问题

示例：候选变异的层级化注释流程

与真实工具或流程的连接

常见误区

相关页面

常用数据库与资源

参考版本、构建号与 liftover

参考基因组、坐标系统与注释

常见文件格式概览

临床变异解释

VCF/BCF 格式