跳转到内容

常用数据库与资源

快速概览

生物信息学数据库围绕不同对象类型组织:基因/转录本、蛋白质、结构、通路、数据集。理解各资源的核心对象与组织方式,才能在分析中正确选择和使用。

  • NCBI:综合入口,承载 Gene/RefSeq、SRA、PubMed 等多个子系统
  • Ensembl:聚焦基因组注释与转录本层级对象
  • UniProt:蛋白质序列与功能注释的统一入口
  • PDB:三维结构对象的专业数据库
  • GEO/SRA:实验数据存档的两个互补维度
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

9.1.1 生物信息学中的核心对象类型

Section titled “9.1.1 生物信息学中的核心对象类型”

生物信息学数据库按对象类型(Object Type)组织。常见对象类型包括:

对象类型描述典型数据库
Gene基因遗传单位,包含调控区、外显子、内含子NCBI Gene、Ensembl
Transcript转录本,mRNA 及其变体Ensembl、RefSeq
Protein蛋白质序列与功能单元UniProt、PDB
Structure三维结构数据PDB、AlphaFold DB
Pathway代谢与信号通路网络KEGG、Reactome
Dataset实验数据集与原始测序数据GEO、SRA、ArrayExpress

9.1.2 资源定位问题的形式化描述

Section titled “9.1.2 资源定位问题的形式化描述”

问题 9.1.1(数据库资源定位)

输入:分析目标 OO(对象类型)、查询关键词 QQ(基因符号、ID 或坐标)

输出:最适合查询的数据库资源集合 R={r1,r2,...,rk}R = \{r_1, r_2, ..., r_k\},其中每个 rir_i 包含目标对象的相关记录

约束条件

  • 资源 rir_i 必须支持对象类型 OO 的查询
  • 资源版本应与分析流程的参考版本兼容

9.2 为什么数据库对象区分至关重要

Section titled “9.2 为什么数据库对象区分至关重要”

9.2.1 分析流程中的资源查询瓶颈

Section titled “9.2.1 分析流程中的资源查询瓶颈”

真实分析中,解释阶段的时间消耗往往超过计算阶段:

判断类型典型问题错误后果
对象层级结果对应 gene、transcript 还是 protein?功能注释错位,误导下游解释
资源选择应去哪个数据库确认注释?重复查询,信息不完整
ID 映射不同数据库的 ID 能否直接对应?记录关联错误,数据污染
数据类型需要原始 reads 还是处理后的矩阵?重新分析或数据不可用

错误模式 1:Gene Symbol 歧义
如 “TP53” 可能指代不同转录本(NM_000546、NM_001126112),直接按 symbol 查询可能遗漏重要变体。

错误模式 2:参考版本不匹配
使用 hg19 坐标查询基于 hg38 的数据库,导致坐标偏移或记录不存在。

错误模式 3:门户与子数据库混淆
将 NCBI 视为单一数据库,而实际查询可能落在 Gene、RefSeq、SRA 等不同子系统。

场景 推荐选择 原因
想确认某个基因或转录本的坐标、注释与版本 Ensembl / NCBI Gene / RefSeq 这些资源更直接围绕 gene、transcript、assembly 与注释记录组织信息。
想看蛋白功能、名称统一和功能注释 UniProt 它更适合作为 protein 层对象的统一入口。
想看已有三维结构或结构证据 PDB 这里关注的是 structure 对象,而不是基因注释本身。
想把结果放到通路或功能模块里解释 KEGG 它更适合回答"这个分子处在什么过程或网络里"。
想找公开实验的原始测序数据 SRA SRA 更偏原始 reads 与测序存档。
想找公共表达数据集、实验设计与项目说明 GEO GEO 更常作为表达研究和数据集元信息的入口。

NCBI 更像一个综合入口,而不是单一类型数据库。它下面常见的对象包括:

  • NCBI Gene / RefSeq:基因、转录本与参考序列;
  • SRA:原始测序 reads;
  • PubMed:文献;
  • 以及其他多种知识库与交叉链接。

更适合回答的问题:

  • 某个基因或转录本在 NCBI 体系里如何表示;
  • 某项研究是否有对应的原始测序数据;
  • 某个对象在文献、序列和存档层面如何串起来。

容易混淆的点:看到的是 NCBI 门户页面,并不代表你正在使用同一种数据库对象。

Ensembl 更适合作为基因组注释与转录本层对象的入口。它常见的强项包括:

  • gene / transcript / protein 的结构化注释;
  • 参考基因组版本和 assembly 背景;
  • 在多物种场景下保持相对统一的浏览方式。

更适合回答的问题:

  • 某个基因有哪些转录本;
  • 某个转录本在参考基因组上的位置与结构如何;
  • 当前分析使用的注释体系和转录本对象该如何理解。

UniProt 更偏 protein 对象本身。它适合用来补充:

  • 蛋白名称统一与功能描述;
  • 域、功能注释和蛋白层级信息;
  • 从基因/转录本进一步走向蛋白解释。

更适合回答的问题:

  • 一个基因对应的蛋白通常做什么;
  • 不同蛋白名称或条目之间如何对应;
  • 某个结果如何从 transcript 层走到 protein 层解释。

PDB 关注的是结构对象,而不是一般的注释对象。

更适合回答的问题:

  • 某个蛋白或复合体是否已有三维结构;
  • 一个变化位点是否落在已知结构区域或功能位点附近;
  • 结构证据能否帮助解释功能变化。

KEGG 更适合把基因、蛋白或代谢对象放回通路背景中理解。

更适合回答的问题:

  • 某个分子参与哪些代谢或信号通路;
  • 一组结果是否集中在同一功能模块;
  • 下游解释应落在哪个过程或网络层面。

这两个资源经常一起出现,但用途不完全相同:

  • GEO 更常作为表达研究、实验设计和数据集说明的入口;
  • SRA 更偏原始测序读段和测序存档。

更适合回答的问题:

  • 我能否找到某类公开实验作为对照;
  • 我需要的是项目元信息,还是原始 reads;
  • 这个公开研究更适合复用元数据,还是重新下载原始数据自己分析。

9.5 工作示例:候选基因的多层信息查询

Section titled “9.5 工作示例:候选基因的多层信息查询”

问题 9.5.1(候选基因全面注释)

输入:RNA-seq 或变异检测流程输出的候选基因符号 GG(如 “BRCA1”)、参考版本 VV(如 GRCh38)

输出:该基因在多个层次上的注释信息集合

查询路径

问题目标对象首选数据库查询方式
有哪些转录本?TranscriptEnsemblGene 页面 → Transcript 列表
蛋白功能是什么?ProteinUniProtGene Symbol → Entry
是否有三维结构?StructurePDBUniProt ID → PDB 交叉引用
参与哪些通路?PathwayKEGGGene Symbol → Pathway 映射
有无可复用数据?DatasetGEO/SRAGene Symbol → 表达数据集

关键原则:数据库之间是互补关系而非替代关系。每个数据库回答特定层次的问题,跨库查询才能建立完整注释。

典型分析流程在以下阶段需要数据库资源:

  1. 比对阶段:使用参考基因组(Ensembl、NCBI 提供)
  2. 定量阶段:依据注释文件 GTF/GFF(Ensembl、GENCODE)
  3. 注释阶段:将变异/差异基因映射到功能数据库
  4. 解释阶段:通路富集、蛋白互作网络分析
资源链接说明
NCBIhttps/www.ncbi.nlm.nih.gov综合生物信息学门户
Ensemblhttps/www.ensembl.org基因组注释数据库
UniProthttps/www.uniprot.org蛋白质知识库
PDBhttps/www.rcsb.org蛋白质结构数据库
KEGGhttps/www.kegg.jp通路数据库
GEOhttps/www.ncbi.nlm.nih.gov/geo基因表达数据存档
SRAhttps/www.ncbi.nlm.nih.gov/sra序列读取存档