跳转到内容

数据库与注释系统一览

快速概览

生物信息学数据库并非平面的资源列表,而是围绕特定生物学对象(基因、转录本、变异、蛋白、样本等)组织的信息体系。理解不同数据库的中心对象、ID 命名规则和版本背景,是正确整合与解释数据的前提。

  • 数据库的本质差异在于其中心对象:注释系统围绕基因/转录本,变异数据库围绕位点/等位基因,蛋白资源围绕功能/结构,队列资源围绕样本/实验。
  • 跨数据库整合的关键障碍是对象层级、ID 体系和参考版本的不一致,而非技术接口。
  • 选择数据库时应先明确研究问题涉及什么对象类型,再寻找对应的资源族。
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

生物信息学研究中涉及的数据库与注释资源数量庞大,从 Ensembl、RefSeq 到 ClinVar、gnomAD,再到 GEO、SRA,初学者常感无所适从。一个系统性的认知框架是:不同类型的数据库围绕不同的中心生物学对象组织信息

可将主要资源分为四类对象体系:

资源类别中心对象典型资源核心问题
注释系统基因、转录本、外显子、基因组组装Ensembl、RefSeq、GENCODE基因的结构与坐标定义
变异数据库变异位点、rsID、临床意义、群体频率dbSNP、ClinVar、gnomAD变异的识别、频率与功能影响
蛋白与功能资源蛋白质、结构域、三维结构、通路UniProt、PDB、KEGG分子功能与系统通路
公共数据与队列样本、实验、原始数据、处理结果GEO、SRA、TCGA数据复用与元信息

理解这一分类框架后,核心问题转化为:我当前的研究问题涉及什么对象?该对象在哪套 ID 体系和参考版本中被定义?

只有回答了这一问题,才能避免在错误的数据库中查找信息,或将不同对象层级的记录错误地等同起来。

实践中常见的信息误用,往往源于对象层级的不匹配:

  • 基因 vs. 转录本层级混淆:试图解释转录本水平的现象,却仅查询基因符号(gene symbol),忽视了同一基因可能有多个选择性剪接转录本的事实;
  • 变异数据库功能误置:判断变异的人群频率时查询了 ClinVar(临床审阅数据库),而判断临床意义时却仅参考了 gnomAD(群体频率数据库);
  • 数据类型识别错误:复用公开数据时未区分原始测序 reads 与经过处理后的表达矩阵,导致下游分析假设与数据实际性质不符;
  • 版本体系忽视:整合多个资源时未核查其参考基因组版本(assembly)和注释版本(release)的一致性。

这些错误的共同特征是:在错误的对象层级或版本背景下寻找答案。建立清晰的对象-数据库映射意识,是避免此类问题的关键。

这张图展示了不同类型的数据库与其中心生物学对象之间的关系。

维度 中心对象 代表资源
注释系统 gene / transcript / exon / assembly / 注释版本 Ensembl、RefSeq、GENCODE
变异知识库 variant / rsID / 临床意义 / 群体频率 dbSNP、ClinVar、gnomAD
蛋白与功能资源 protein / domain / structure / pathway UniProt、PDB、KEGG
公共数据与队列 sample / study / raw reads / processed matrices / metadata GEO、SRA、TCGA

这类资源最适合回答的是:

  • 一个 gene 在当前 assembly 上有哪些 transcript;
  • transcript / exon / CDS 的结构如何;
  • 当前分析所依赖的注释对象究竟来自哪套体系。

它们的差别往往体现在:

  • ID 命名规则不同;
  • release / version 更新节奏不同;
  • 注释策略和覆盖范围不同;
  • 与特定物种或分析场景的耦合程度不同。

变异数据库:dbSNP、ClinVar、gnomAD

Section titled “变异数据库:dbSNP、ClinVar、gnomAD”

这类资源看起来都”和变异有关”,但回答的问题并不一样:

  • dbSNP:更偏”这个变异是否是已知记录”;
  • ClinVar:更偏”这个变异是否有临床解释与审阅状态”;
  • gnomAD:更偏”这个变异在人群中常见还是罕见”。

因此,把它们视为同义资源会直接导致解释偏差。

蛋白与功能资源:UniProt、PDB、KEGG

Section titled “蛋白与功能资源:UniProt、PDB、KEGG”

这类资源不一定定义”坐标上的注释对象”,但它们对解释层非常重要:

  • UniProt 把 gene / transcript 进一步接到 protein 层功能上;
  • PDB 提供结构层线索;
  • KEGG 帮助把结果放回 pathway 或功能网络。

如果一个结果只停留在 transcript 或 variant 层而不继续走向蛋白/通路层,解释往往还不完整。

公共数据与队列资源:GEO、SRA、TCGA

Section titled “公共数据与队列资源:GEO、SRA、TCGA”

这类资源的关键不是”有没有数据”,而是先判断你需要哪一种对象:

  • 原始测序 reads;
  • 项目或样本元信息;
  • 处理后的表达矩阵或队列结果;
  • 统一整理后的大型项目数据。

因此,查公开数据时最容易踩的坑,不是搜不到,而是找到了错误层的数据对象。

选择资源时,先问自己什么问题

Section titled “选择资源时,先问自己什么问题”
场景 推荐选择 原因
我要确认 gene / transcript 注释与坐标背景 先去注释系统 这一步解决的是 assembly、transcript 结构和注释对象边界问题。
我要判断一个变异在人群中是否常见 先去群体频率数据库 频率问题和临床意义问题不是同一类判断。
我要判断一个变异是否已有临床解释 先去临床变异数据库 临床审阅状态与群体频率不能互相替代。
我要把结果连到蛋白功能或通路层面 再接蛋白/功能资源 这一步解决的是 protein、structure、pathway 层的解释。
我要复用公开实验或项目数据 先区分 raw data 与 processed data GEO、SRA、TCGA 这类资源里最先要分清的是对象层,而不是站点名称。

示例:候选变异的层级化注释流程

Section titled “示例:候选变异的层级化注释流程”

假设在 GRCh38 参考背景下识别出一个候选变异位点,如何系统性地整合多数据库信息进行解释?以下是一种分层的查询策略:

步骤 1:定位注释背景

  • 查询 Ensembl 或 RefSeq,确认该位点位于哪个基因/转录本的哪个区域(外显子、内含子、UTR、基因间区)
  • 记录所使用的注释版本,确保与后续分析一致

步骤 2:已知性识别

  • 查询 dbSNP,确认该位点是否为已记录的变异(获得 rsID)
  • 区分”已知变异”与”新发现位点”,两者在后续验证策略上有所不同

步骤 3:人群频率评估

  • 查询 gnomAD 等群体频率数据库
  • 判断该变异在一般人群中的出现频率:高频变异通常为良性多态,低频变异可能具有功能或病理意义

步骤 4:临床意义查询(如适用)

  • 查询 ClinVar,查看该变异是否有临床实验室的审阅记录和致病性分类
  • 关注审阅状态(review status)和证据级别

步骤 5:功能层面解释(如编码区变异)

  • 查询 UniProt 了解蛋白功能域信息
  • 查询 PDB 获取结构背景(如影响已知结构区域)
  • 查询 KEGG 等通路数据库,评估对生物通路的可能影响

核心认知:数据库整合的本质是”按对象层级和问题类型逐层衔接”,而非在单一网站寻找”最终答案”。每一层数据库仅回答特定类型的问题,整合的价值在于建立完整的解释链条。