跳转到内容

NCBI 资源体系:Gene、RefSeq、SRA 与 PubMed

快速概览

NCBI(National Center for Biotechnology Information)不是单一数据库,而是多个子系统的综合门户。理解 Gene、RefSeq、SRA、PubMed 等核心资源的对象类型和查询策略,是生物信息学分析的基础能力。

  • NCBI Gene:基因中心,整合多源注释信息,使用 Entrez Gene ID
  • RefSeq:参考序列数据库,提供 NM_/NR_/NP_ 等标准化 accession
  • SRA:Sequence Read Archive,存储原始测序 reads
  • PubMed:生物医学文献数据库,通过 PMID 标识
  • 各子系统之间通过交叉引用(cross-reference)互相连接
所属板块 数据、注释与资源

参考版本、注释体系、数据格式与数据库的统一入口。

阅读目标 帮助建立阅读上下文

先判断这页与你当前问题的关系,再决定是否深入展开。

建议前置 先建立相关基础对象与方法直觉

建议先建立相关基础对象与方法直觉,再进入本页。

NCBI(National Center for Biotechnology Information) 是美国国家生物技术信息中心,提供全球最大的生物信息学资源集合。

关键认知:NCBI 不是单一数据库,而是多个子系统的综合门户。每次访问 NCBI 时,你实际在使用某个特定子系统(如 Gene、SRA、PubMed),而不是”NCBI 数据库”本身。

资源对象类型标识符典型用途
NCBI Gene基因注释记录Entrez Gene ID(整数)查询基因功能、位置、相关文献
RefSeq参考序列(DNA/RNA/蛋白)Accession(如 NM_000546)获取标准化参考转录本和蛋白序列
SRA原始测序数据SRA Run ID(如 SRR123456)下载公开测序数据进行复用分析
PubMed生物医学文献PMID(如 30234567)检索相关研究和实验方法
dbSNP单核苷酸多态性rsID(如 rs12345)查询已知变异位点
dbGaP基因型-表型关联phs/study ID访问受控的个体水平数据

NCBI 资源是生物信息学分析的基础数据源

  • 参考序列:RefSeq 提供参考转录本和蛋白序列
  • 公开数据复用:SRA 存储超过 2000 万个测序实验
  • 功能注释:NCBI Gene 整合来自 Ensembl、UniProt、OMIM 等多源注释
  • 文献支持:PubMed 连接研究背景与实验验证

关键认知:NCBI 各子系统之间是互相连接的网络,而不是孤立的数据库。从一个 Gene 页面可以跳转到 RefSeq 序列、SRA 数据集、PubMed 文献,建立完整的证据链。

NCBI Gene 整合来自多个来源的基因注释信息:

  • 基本属性:基因符号(Symbol)、全名、基因 ID(Entrez Gene ID)
  • 基因组位置:染色体、起止坐标、链方向
  • 功能注释:Gene Ontology(GO)、通路信息
  • 相关资源:RefSeq 转录本、PubMed 文献、dbSNP 变异
  • 表型关联:OMIM(孟德尔遗传病)、ClinVar(临床意义)
方法适用场景
基因符号搜索已知基因名称(如 TP53)
Entrez Gene ID稳定标识符,不随基因符号变化
基因组坐标基于位置的查询(需指定参考版本)
批量查询通过 Gene ID 列表获取功能注释
特性Entrez Gene IDGene Symbol
稳定性稳定,不变化可能随注释更新而变化
唯一性唯一对应一个基因可能存在歧义(不同物种同名基因)
推荐使用程序化分析和跨数据库映射人工阅读和文献交流

建议:在分析流程中使用 Entrez Gene ID,在报告和展示中使用 Gene Symbol。

RefSeq(Reference Sequence Database) 提供非冗余、经过人工审编的参考序列集合,包括 DNA、RNA 和蛋白质序列。

RefSeq 使用前缀区分序列类型:

前缀类型示例
NM_编码转录本(mRNA),人工审编NM_000546(TP53 mRNA)
NR_非编码转录本,人工审编NR_027676
NP_蛋白质产物,人工审编NP_000537
XM_编码转录本,自动预测XM_024450000
XR_非编码转录本,自动预测XR_002950000
XP_蛋白质产物,自动预测XP_024300000
NC_完整染色体或参考基因组NC_000001(chr1)

NM_/NP_ 与 XM_/XP_ 的区别:前者经过人工审编(Reviewed),置信度高;后者是自动预测(Predicted),需要实验验证。

维度 RefSeq GenBank
**冗余度** 非冗余,每个分子一个代表序列 冗余,同一序列可能多次提交
**质量** 人工审编 + 自动预测 原始提交,未经统一审核
**用途** 参考序列、标准比对模板 归档所有公开序列
**更新** 定期审编更新 实时接收新提交

SRA 是全球最大的原始测序数据存档,存储来自高通量测序仪的 reads 和元数据。

SRA 中的数据按以下层级组织:

层级标识符说明
StudySRP/ERP/DRP研究项目(如”肺癌全外显子测序”)
SampleSRS/ERS/DRS生物样本(如”患者 A 的肿瘤组织”)
ExperimentSRX/ERX/DRX测序实验设计(如”Illumina NovaSeq 2x150”)
RunSRR/ERR/DRR实际测序运行(下载单元)
工具用途
SRA Toolkit下载 SRA 文件并转换为 FASTQ(fastq-dump
prefetch预先下载 SRA 文件到本地缓存
fasterq-dump更快的 FASTQ 转换工具
ENA欧洲节点,提供直接 FASTQ 下载
Terminal window
# 下载并转换
prefetch SRR123456
fasterq-dump SRR123456

PubMed 存储超过 3500 万篇生物医学文献,通过 PMID(PubMed ID)唯一标识。

  • 方法学参考:查找特定分析流程的原始论文
  • 实验验证:确认计算预测的实验支持
  • 临床关联:查找基因-疾病关系的文献证据
  • 数据库交叉引用:NCBI Gene、dbSNP 等页面直接链接相关 PubMed 文献
  • NCBI 是综合门户,包含 Gene、RefSeq、SRA、PubMed 等多个子系统
  • NCBI Gene 提供基因注释中心,Entrez Gene ID 是稳定标识符
  • RefSeq 提供非冗余参考序列,Accession 前缀区分序列类型
  • SRA 存储原始测序数据,需使用 Toolkit 转换为 FASTQ
  • 各子系统通过交叉引用互相连接,建立完整证据链