跳转到内容

数据、注释与资源

生物信息学分析的结果不仅取决于算法本身，更取决于分析所依赖的数据基础。当你拿到一组变异检测结果或基因表达矩阵时，一个核心问题浮出水面：这些结果基于哪个参考背景？它们能否与其他研究或公共数据库进行有效整合？

这一部分聚焦于四个相互关联的核心主题：参考基因组版本、坐标转换、注释系统、数据库资源与文件格式。它们共同构成了生物信息学分析的”基础设施层”——决定了输入数据的语义、分析结果的准确性，以及不同研究之间的可比性。

核心问题

这一部分回答的关键问题包括：

参考版本选择：GRCh37 还是 GRCh38？hg19 与 hg38 有何区别？不同选择如何影响结果的可比性？
坐标转换：当需要整合不同版本的数据时，liftover 能解决什么问题？其局限性又是什么？
注释系统：Ensembl、RefSeq、GENCODE 等系统的基因模型有何差异？如何选择适合研究目的的注释资源？
数据库整合：从 dbSNP、ClinVar 到 gnomAD，各类数据库针对什么生物学问题设计？如何建立跨数据库的对象映射？
数据格式层级：FASTA、FASTQ、BAM、GTF、VCF 在分析流程中分别承载什么信息？它们之间如何衔接？

学习路径建议

对于初次接触这一主题的读者，建议按以下顺序阅读：

参考基因组、坐标系统与注释 — 建立参考背景与坐标系统的基本概念
参考版本、构建号与坐标转换 — 理解版本差异的本质及坐标转换的原理与局限
数据库与注释系统一览 — 掌握主要数据库的对象体系与整合逻辑
常见数据格式总览 — 将文件格式放回分析流程的层级框架中理解

这一路径遵循”从背景到对象、从概念到应用”的认知逻辑，帮助读者建立起对生物信息学数据基础设施的系统性理解。

子主题导航

参考基因组、坐标系统与注释

先理解坐标系和版本体系，避免后续流程在基础层面出错。

进入子主题

参考版本、构建号与 liftover

学习如何在不同基因组版本之间转换坐标，并保持注释与数据库的一致性。

进入子主题

数据库与注释系统一览

梳理 Ensembl/RefSeq/GENCODE、ClinVar、gnomAD 等常见资源及其版本差异。

进入子主题

常见数据格式总览

从 FASTA/FASTQ 到 BAM/GTF/VCF，把不同层级的数据格式放回具体流程理解。

进入子主题

与其他板块的连接