数据、注释与资源
生物信息学分析的结果不仅取决于算法本身,更取决于分析所依赖的数据基础。当你拿到一组变异检测结果或基因表达矩阵时,一个核心问题浮出水面:这些结果基于哪个参考背景?它们能否与其他研究或公共数据库进行有效整合?
这一部分聚焦于四个相互关联的核心主题:参考基因组版本、坐标转换、注释系统、数据库资源与文件格式。它们共同构成了生物信息学分析的”基础设施层”——决定了输入数据的语义、分析结果的准确性,以及不同研究之间的可比性。
这一部分回答的关键问题包括:
- 参考版本选择:GRCh37 还是 GRCh38?hg19 与 hg38 有何区别?不同选择如何影响结果的可比性?
- 坐标转换:当需要整合不同版本的数据时,liftover 能解决什么问题?其局限性又是什么?
- 注释系统:Ensembl、RefSeq、GENCODE 等系统的基因模型有何差异?如何选择适合研究目的的注释资源?
- 数据库整合:从 dbSNP、ClinVar 到 gnomAD,各类数据库针对什么生物学问题设计?如何建立跨数据库的对象映射?
- 数据格式层级:FASTA、FASTQ、BAM、GTF、VCF 在分析流程中分别承载什么信息?它们之间如何衔接?
学习路径建议
Section titled “学习路径建议”对于初次接触这一主题的读者,建议按以下顺序阅读:
- 参考基因组、坐标系统与注释 — 建立参考背景与坐标系统的基本概念
- 参考版本、构建号与坐标转换 — 理解版本差异的本质及坐标转换的原理与局限
- 数据库与注释系统一览 — 掌握主要数据库的对象体系与整合逻辑
- 常见数据格式总览 — 将文件格式放回分析流程的层级框架中理解
这一路径遵循”从背景到对象、从概念到应用”的认知逻辑,帮助读者建立起对生物信息学数据基础设施的系统性理解。
参考基因组、坐标系统与注释
先理解坐标系和版本体系,避免后续流程在基础层面出错。
进入子主题参考版本、构建号与 liftover
学习如何在不同基因组版本之间转换坐标,并保持注释与数据库的一致性。
进入子主题数据库与注释系统一览
梳理 Ensembl/RefSeq/GENCODE、ClinVar、gnomAD 等常见资源及其版本差异。
进入子主题常见数据格式总览
从 FASTA/FASTQ 到 BAM/GTF/VCF,把不同层级的数据格式放回具体流程理解。
进入子主题