常用数据库与资源
生物信息学数据库围绕不同对象类型组织:基因/转录本、蛋白质、结构、通路、数据集。理解各资源的核心对象与组织方式,才能在分析中正确选择和使用。
- NCBI:综合入口,承载 Gene/RefSeq、SRA、PubMed 等多个子系统
- Ensembl:聚焦基因组注释与转录本层级对象
- UniProt:蛋白质序列与功能注释的统一入口
- PDB:三维结构对象的专业数据库
- GEO/SRA:实验数据存档的两个互补维度
9.1 数据库对象的分类体系
Section titled “9.1 数据库对象的分类体系”9.1.1 生物信息学中的核心对象类型
Section titled “9.1.1 生物信息学中的核心对象类型”生物信息学数据库按对象类型(Object Type)组织。常见对象类型包括:
| 对象类型 | 描述 | 典型数据库 |
|---|---|---|
| Gene | 基因遗传单位,包含调控区、外显子、内含子 | NCBI Gene、Ensembl |
| Transcript | 转录本,mRNA 及其变体 | Ensembl、RefSeq |
| Protein | 蛋白质序列与功能单元 | UniProt、PDB |
| Structure | 三维结构数据 | PDB、AlphaFold DB |
| Pathway | 代谢与信号通路网络 | KEGG、Reactome |
| Dataset | 实验数据集与原始测序数据 | GEO、SRA、ArrayExpress |
9.1.2 资源定位问题的形式化描述
Section titled “9.1.2 资源定位问题的形式化描述”问题 9.1.1(数据库资源定位)
输入:分析目标 (对象类型)、查询关键词 (基因符号、ID 或坐标)
输出:最适合查询的数据库资源集合 ,其中每个 包含目标对象的相关记录
约束条件:
- 资源 必须支持对象类型 的查询
- 资源版本应与分析流程的参考版本兼容
9.2 为什么数据库对象区分至关重要
Section titled “9.2 为什么数据库对象区分至关重要”9.2.1 分析流程中的资源查询瓶颈
Section titled “9.2.1 分析流程中的资源查询瓶颈”真实分析中,解释阶段的时间消耗往往超过计算阶段:
| 判断类型 | 典型问题 | 错误后果 |
|---|---|---|
| 对象层级 | 结果对应 gene、transcript 还是 protein? | 功能注释错位,误导下游解释 |
| 资源选择 | 应去哪个数据库确认注释? | 重复查询,信息不完整 |
| ID 映射 | 不同数据库的 ID 能否直接对应? | 记录关联错误,数据污染 |
| 数据类型 | 需要原始 reads 还是处理后的矩阵? | 重新分析或数据不可用 |
9.2.2 对象混淆的典型错误模式
Section titled “9.2.2 对象混淆的典型错误模式”错误模式 1:Gene Symbol 歧义
如 “TP53” 可能指代不同转录本(NM_000546、NM_001126112),直接按 symbol 查询可能遗漏重要变体。
错误模式 2:参考版本不匹配
使用 hg19 坐标查询基于 hg38 的数据库,导致坐标偏移或记录不存在。
错误模式 3:门户与子数据库混淆
将 NCBI 视为单一数据库,而实际查询可能落在 Gene、RefSeq、SRA 等不同子系统。
先按问题选资源
Section titled “先按问题选资源”| 场景 | 推荐选择 | 原因 |
|---|---|---|
| 想确认某个基因或转录本的坐标、注释与版本 | Ensembl / NCBI Gene / RefSeq | 这些资源更直接围绕 gene、transcript、assembly 与注释记录组织信息。 |
| 想看蛋白功能、名称统一和功能注释 | UniProt | 它更适合作为 protein 层对象的统一入口。 |
| 想看已有三维结构或结构证据 | PDB | 这里关注的是 structure 对象,而不是基因注释本身。 |
| 想把结果放到通路或功能模块里解释 | KEGG | 它更适合回答"这个分子处在什么过程或网络里"。 |
| 想找公开实验的原始测序数据 | SRA | SRA 更偏原始 reads 与测序存档。 |
| 想找公共表达数据集、实验设计与项目说明 | GEO | GEO 更常作为表达研究和数据集元信息的入口。 |
核心资源怎么看
Section titled “核心资源怎么看”NCBI 更像一个综合入口,而不是单一类型数据库。它下面常见的对象包括:
- NCBI Gene / RefSeq:基因、转录本与参考序列;
- SRA:原始测序 reads;
- PubMed:文献;
- 以及其他多种知识库与交叉链接。
更适合回答的问题:
- 某个基因或转录本在 NCBI 体系里如何表示;
- 某项研究是否有对应的原始测序数据;
- 某个对象在文献、序列和存档层面如何串起来。
容易混淆的点:看到的是 NCBI 门户页面,并不代表你正在使用同一种数据库对象。
Ensembl
Section titled “Ensembl”Ensembl 更适合作为基因组注释与转录本层对象的入口。它常见的强项包括:
- gene / transcript / protein 的结构化注释;
- 参考基因组版本和 assembly 背景;
- 在多物种场景下保持相对统一的浏览方式。
更适合回答的问题:
- 某个基因有哪些转录本;
- 某个转录本在参考基因组上的位置与结构如何;
- 当前分析使用的注释体系和转录本对象该如何理解。
UniProt
Section titled “UniProt”UniProt 更偏 protein 对象本身。它适合用来补充:
- 蛋白名称统一与功能描述;
- 域、功能注释和蛋白层级信息;
- 从基因/转录本进一步走向蛋白解释。
更适合回答的问题:
- 一个基因对应的蛋白通常做什么;
- 不同蛋白名称或条目之间如何对应;
- 某个结果如何从 transcript 层走到 protein 层解释。
PDB 关注的是结构对象,而不是一般的注释对象。
更适合回答的问题:
- 某个蛋白或复合体是否已有三维结构;
- 一个变化位点是否落在已知结构区域或功能位点附近;
- 结构证据能否帮助解释功能变化。
KEGG 更适合把基因、蛋白或代谢对象放回通路背景中理解。
更适合回答的问题:
- 某个分子参与哪些代谢或信号通路;
- 一组结果是否集中在同一功能模块;
- 下游解释应落在哪个过程或网络层面。
GEO / SRA
Section titled “GEO / SRA”这两个资源经常一起出现,但用途不完全相同:
- GEO 更常作为表达研究、实验设计和数据集说明的入口;
- SRA 更偏原始测序读段和测序存档。
更适合回答的问题:
- 我能否找到某类公开实验作为对照;
- 我需要的是项目元信息,还是原始 reads;
- 这个公开研究更适合复用元数据,还是重新下载原始数据自己分析。
9.5 工作示例:候选基因的多层信息查询
Section titled “9.5 工作示例:候选基因的多层信息查询”问题 9.5.1(候选基因全面注释)
输入:RNA-seq 或变异检测流程输出的候选基因符号 (如 “BRCA1”)、参考版本 (如 GRCh38)
输出:该基因在多个层次上的注释信息集合
查询路径:
| 问题 | 目标对象 | 首选数据库 | 查询方式 |
|---|---|---|---|
| 有哪些转录本? | Transcript | Ensembl | Gene 页面 → Transcript 列表 |
| 蛋白功能是什么? | Protein | UniProt | Gene Symbol → Entry |
| 是否有三维结构? | Structure | PDB | UniProt ID → PDB 交叉引用 |
| 参与哪些通路? | Pathway | KEGG | Gene Symbol → Pathway 映射 |
| 有无可复用数据? | Dataset | GEO/SRA | Gene Symbol → 表达数据集 |
关键原则:数据库之间是互补关系而非替代关系。每个数据库回答特定层次的问题,跨库查询才能建立完整注释。
9.6 与生物信息学流程的连接
Section titled “9.6 与生物信息学流程的连接”9.6.1 流程中的数据库映射节点
Section titled “9.6.1 流程中的数据库映射节点”典型分析流程在以下阶段需要数据库资源:
- 比对阶段:使用参考基因组(Ensembl、NCBI 提供)
- 定量阶段:依据注释文件 GTF/GFF(Ensembl、GENCODE)
- 注释阶段:将变异/差异基因映射到功能数据库
- 解释阶段:通路富集、蛋白互作网络分析
9.7 常见误区与注意事项
Section titled “9.7 常见误区与注意事项”9.8 扩展阅读与相关资源
Section titled “9.8 扩展阅读与相关资源”9.8.1 本章相关页面
Section titled “9.8.1 本章相关页面”9.8.2 外部资源
Section titled “9.8.2 外部资源”| 资源 | 链接 | 说明 |
|---|---|---|
| NCBI | https/www.ncbi.nlm.nih.gov | 综合生物信息学门户 |
| Ensembl | https/www.ensembl.org | 基因组注释数据库 |
| UniProt | https/www.uniprot.org | 蛋白质知识库 |
| PDB | https/www.rcsb.org | 蛋白质结构数据库 |
| KEGG | https/www.kegg.jp | 通路数据库 |
| GEO | https/www.ncbi.nlm.nih.gov/geo | 基因表达数据存档 |
| SRA | https/www.ncbi.nlm.nih.gov/sra | 序列读取存档 |