数据库与资源
本板块解决的核心问题:如何为特定的生物学分析问题,定位合适的数据库资源并正确理解其对象类型?
分析任务 需要的数据库查询─────────────────────────────────────────────────────────变异注释 ──→ 基因坐标、转录本结构、蛋白功能功能富集 ──→ 通路注释、蛋白互作、基因本体数据复用 ──→ 公开数据集元信息、原始测序数据结构分析 ──→ 三维结构、结构域信息本板块不追求覆盖所有数据库的完整列表,而是建立按问题选资源的决策框架。
本板块在全站知识图谱中的位置
Section titled “本板块在全站知识图谱中的位置”数据库资源层位于整个知识体系的接口层:
- 上游:承接序列比对、变异检测、表达分析等流程的输出
- 下游:连接功能注释、通路分析、可视化呈现等解释层
本板块与以下章节形成互补:
- 数据、注释与资源 —— 数据库分类体系与 ID 系统的上层视角
- 参考基因组与坐标系统 —— 参考基因组与坐标系统基础
- 常见数据格式 —— 数据库对象与文件格式的接口标准
推荐阅读顺序
Section titled “推荐阅读顺序”常用数据库与资源总览
按真实分析任务理解 NCBI、Ensembl、UniProt、PDB、KEGG、GEO/SRA 等资源分别适合回答什么问题。建立"按问题选资源"的决策框架。
进入子主题NCBI 资源体系
Gene、RefSeq、SRA、PubMed 等子系统的对象类型、标识符体系和查询策略。
进入子主题Ensembl 基因组注释
基因/转录本/蛋白质层级结构、Ensembl ID 体系、VEP 变异注释和多物种比较。
进入子主题UniProt 蛋白质知识库
Swiss-Prot/TrEMBL 质量差异、蛋白质功能注释、结构域和跨数据库映射。
进入子主题PDB 蛋白质结构数据库
实验结构测定方法、分辨率、结构文件格式,以及与 AlphaFold 的关系。
进入子主题数据库搜索与索引算法
理解 BLAST、BWA 等工具背后的 k-mer 索引、seed-and-extend、FM-index 等核心算法原理。
进入子主题