数据库 ID 映射与查询入口

数据库按对象类型（注释系统、变异数据库、蛋白与功能资源、公共数据与队列）的分类框架，见数据库与注释系统一览。本页聚焦于每个数据库用什么 ID、跨库如何映射、查询从哪里进入。

快速概览

本页是主流生物信息学数据库的 ID 体系与查询入口参考：每个数据库的中心 ID、跨库映射规则、查询路径与常见 ID 陷阱。

不同数据库用不同 ID 体系（Entrez Gene ID、Ensembl Gene ID、RefSeq NM_、UniProt AC），跨库整合必须显式映射
Gene Symbol 不是稳定主键，同基因有多个转录本，按 symbol 查询可能遗漏变体
查询前先确认对象层级（gene/transcript/protein）和参考版本（assembly/release）

各数据库的 ID 体系

数据库	中心 ID 格式	示例	对象层级
NCBI Gene	Entrez Gene ID（纯数字）	`7157`	gene
NCBI RefSeq	`NM_`/`NR_`/`NP_` + 数字	`NM_000546`	transcript / protein
Ensembl	`ENSG`/`ENST`/`ENSP` + 数字	`ENSG00000141510`	gene / transcript / protein
UniProt	AC（6 字符）	`P04637`	protein
PDB	4 字符 ID	`1TUP`	structure
dbSNP	rsID	`rs1042522`	variant
ClinVar	`VCV` + 数字	`VCV000009999`	variant
gnomAD	无独立 ID，按坐标/rsID 查询	—	variant
GEO	`GSE`/`GSM`/`GPL`	`GSE12345`	study / sample / platform
SRA	`SRR`/`SRP`/`SRX`	`SRR123456`	run / project / experiment

关键约束：ID 体系与参考版本（assembly）和注释版本（release）绑定。同一基因在 GRCh37 与 GRCh38 下的 Ensembl ID 可能不同；同一基因在 Ensembl 不同 release 下的转录本集合也会变化。

跨库 ID 映射

常见映射路径

起点	终点	映射方式	注意点
Gene Symbol（如 `TP53`）	Entrez Gene ID	NCBI Gene 查询	Symbol 有歧义，同物种内可能撞名
Entrez Gene ID	Ensembl Gene ID	Ensembl BioMart / ID 映射文件	同基因在两库都有记录，但 ID 完全不同
Ensembl Gene ID	UniProt AC	UniProt 查询 / Ensembl 交叉引用	一个基因可能对应多个蛋白条目（异构体）
Ensembl Transcript ID	RefSeq NM_	MANE 项目（NCBI + Ensembl 协作）	MANE Select 是两库共同推荐的标准转录本
UniProt AC	PDB ID	UniProt 条目内的结构交叉引用	不是所有蛋白都有实验结构
rsID	ClinVar / gnomAD	直接查询	ClinVar 记录可能不存在；gnomAD 频率按种群细分

ID 映射的常见陷阱

Gene Symbol 歧义：TP53 可能指代不同转录本（NM_000546、NM_001126112），直接按 symbol 查询可能遗漏重要变体
参考版本不匹配：用 hg19 坐标查询基于 hg38 的数据库，导致坐标偏移或记录不存在
层级混淆：Ensembl Gene ID（ENSG）与 Transcript ID（ENST）不能互换，前者对应基因座，后者对应具体转录本
物种未指定：Ensembl ID 前缀区分物种（ENSG 人、ENSMUSG 小鼠），跨物种比较时必须确认前缀
Swiss-Prot vs TrEMBL：UniProt 中 Swiss-Prot 是人工审阅（curated），TrEMBL 是自动注释，质量差异显著，不能等同使用

各数据库的查询入口

NCBI

NCBI 是综合门户，查询时需明确进入哪个子系统：

子系统	查询入口	适合回答
NCBI Gene	`eutils.ncbi.nlm.nih.gov/entrez/eutils/` 或网页搜索	基因在 NCBI 体系里的表示
RefSeq	NCBI Nucleotide / Protein 数据库	参考序列与转录本
SRA	`ncbi.nlm.nih.gov/sra`	原始测序 reads
PubMed	`pubmed.ncbi.nlm.nih.gov`	文献
dbSNP	`ncbi.nlm.nih.gov/snp`	已知变异记录

易混淆点：看到的是 NCBI 门户页面，并不代表你正在使用同一种数据库对象。

Ensembl

查询入口：

BioMart：批量 ID 映射与注释导出
REST API：rest.ensembl.org，程序化查询 gene/transcript/sequence
Genome Browser：可视化基因结构与坐标

适合回答：某基因有哪些转录本、某转录本在参考基因组上的位置与结构、当前注释体系如何理解。

UniProt

查询入口：

网页搜索：uniprot.org，按 AC、基因符号或蛋白名查询
REST API：rest.uniprot.org，程序化批量查询
ID 映射工具：uniprot.org/id-mapping，跨库 ID 转换

适合回答：蛋白功能、名称统一、域注释、从 transcript 层走到 protein 层解释。

PDB

查询入口：

RCSB PDB：rcsb.org，按 PDB ID、UniProt AC 或序列查询
结构浏览：可视化蛋白三维结构

适合回答：某蛋白是否已有三维结构、变异位点是否落在已知结构区域或功能位点附近。

KEGG

查询入口：

KEGG Orthology：kegg.jp/orthology，按 KO 号查询
Pathway 查询：按基因符号或 KO 映射到通路

适合回答：某分子参与哪些代谢或信号通路、一组结果是否集中在同一功能模块。

GEO / SRA

资源	查询入口	对象层
GEO	`ncbi.nlm.nih.gov/geo`	表达研究、实验设计、数据集说明
SRA	`ncbi.nlm.nih.gov/sra`	原始测序 reads、测序存档

关键区分：GEO 更常作为项目元信息入口，SRA 更偏原始 reads。复用公开数据时先判断需要元信息还是原始数据。

工作示例：候选基因的多层 ID 映射

输入：RNA-seq 或变异检测流程输出的候选基因符号 BRCA1，参考版本 GRCh38

查询路径：

问题	目标对象	首选数据库	查询方式	获得 ID
有哪些转录本？	Transcript	Ensembl	Gene Symbol → Gene 页面	`ENSG00000012048` → 多个 `ENST`
蛋白功能是什么？	Protein	UniProt	Gene Symbol → Entry	`P38398`
是否有三维结构？	Structure	PDB	UniProt AC → PDB 交叉引用	多个 PDB ID
参与哪些通路？	Pathway	KEGG	Gene Symbol → Pathway 映射	KO 号 + 通路 ID
有无可复用数据？	Dataset	GEO/SRA	Gene Symbol → 表达数据集	`GSE`/`SRR` 号

关键原则：数据库之间是互补关系而非替代关系。每个数据库回答特定层级的问题，跨库查询才能建立完整注释链条。

外部资源

资源	链接	说明
NCBI	https://www.ncbi.nlm.nih.gov	综合生物信息学门户
Ensembl	https://www.ensembl.org	基因组注释数据库
UniProt	https://www.uniprot.org	蛋白质知识库
PDB	https://www.rcsb.org	蛋白质结构数据库
KEGG	https://www.kegg.jp	通路数据库
GEO	https://www.ncbi.nlm.nih.gov/geo	基因表达数据存档
SRA	https://www.ncbi.nlm.nih.gov/sra	序列读取存档

常见误区

把 Gene Symbol 当成稳定、唯一且跨数据库可直接互换的主键：
Symbol 有歧义，同基因有多个转录本，按 symbol 查询可能遗漏重要变体。应优先使用稳定 ID（Entrez Gene ID、Ensembl Gene ID）。
把 NCBI 当成单一数据库：
NCBI 是多个资源入口的集合（Gene、RefSeq、SRA、PubMed、dbSNP），查询时需明确进入哪个子系统。
把 GEO 和 SRA 当成完全相同的资源：
GEO 更偏项目元信息与处理结果，SRA 更偏原始 reads，两者对象层不同。
忽视 Swiss-Prot 与 TrEMBL 的质量差异：
Swiss-Prot 是人工审阅，TrEMBL 是自动注释，将自动注释等同于人工 curated 记录会导致解释偏差。
跨物种比较时未确认 Ensembl ID 前缀：
Ensembl ID 前缀区分物种（ENSG 人、ENSMUSG 小鼠），跨物种比较必须确认前缀与 assembly 版本一致。

数据库 ID 映射与查询入口

各数据库的 ID 体系

跨库 ID 映射

常见映射路径

ID 映射的常见陷阱

各数据库的查询入口

NCBI

Ensembl

UniProt

PDB

KEGG

GEO / SRA

工作示例：候选基因的多层 ID 映射

外部资源

数据库与注释系统一览

参考基因组、坐标系统与注释

常见文件格式概览

数据库搜索与索引算法