跳转到内容

层次聚类

所属板块 系统发育与聚类

帮助你快速判断本页所属知识层级与在全站中的位置。

适合谁读 建议在以下阶段阅读

需要分析基因表达数据、理解聚类算法原理的研究者

建议起点 推荐阅读路径

阅读本文了解层次聚类核心算法,然后学习 UPGMA 或 Neighbor-Joining 算法

快速概览

层次聚类(Hierarchical Clustering)是基因表达数据分析的核心方法,通过迭代合并最相似的簇构建树状结构(Dendrogram)。

  • 理解凝聚式(Agglomerative) 层次聚类的核心算法流程
  • 掌握三种距离更新策略:Single、Complete、Average Linkage
  • 了解层次聚类与 UPGMA 算法的深层联系
  • 辨析层次聚类树与系统发育树的本质区别

在生物信息学(尤其是转录组学)中,我们经常面对庞大的基因表达矩阵。层次聚类的核心价值在于它不需要预设簇的数量 kk,而是通过一个完整的合并过程展示数据内部的结构层次。

  • 基因聚类:寻找具有相似表达谱的共表达基因。
  • 样本聚类:识别临床样本中的亚型或批次效应。
  • 树状可视化:通过系统树图(Dendrogram) 直观展示对象间的亲疏关系。

凝聚式层次聚类采用贪心策略:从每个对象自成一簇开始,每一步都合并当前距离最近的两个簇。

1. 初始化:n 个对象各为一个簇
2. 循环:直到只剩一个簇
a. 在距离矩阵中找到最近的两个簇 C1 和 C2
b. 合并 C1 和 C2 为新簇 C
c. 计算 C 与其他所有簇之间的距离(Linkage)
d. 更新距离矩阵,移除 C1 和 C2,加入 C
3. 输出:记录所有合并过程的树状图

如何定义”两个簇之间的距离”是算法的核心,不同的策略会产生完全不同的树形:

策略定义特点
Single Linkage两个簇中最近点对的距离易产生”链状”结构,对噪声敏感。
Complete Linkage两个簇中最远点对的距离倾向于产生紧凑的球形簇。
Average Linkage所有点对距离的算术平均即 UPGMA 的核心,在稳健性上表现均衡。

一个好的聚类应该满足:

  • 同质性(Homogeneity):同一个簇内的基因表达模式高度相似(内部距离小)。
  • 分离性(Separation):不同簇之间的基因表达模式显著不同(外部距离大)。

尽管它们看起来都像树,但其生物学含义完全不同:

  • 层次聚类树:纯粹基于数据相似性的数学组织,枝长仅代表合并时的距离。
  • 系统发育树:试图恢复真实的演化历史,枝长通常代表演化时间或替换数。