系统发育与进化

所属板块 分析方向与案例

把基础对象与算法方法重新放回真实分析任务与工作流。

适合谁读 建议在以下阶段阅读

已经理解比对与距离概念，希望进一步理解树结构与进化关系解释的读者

建议起点 推荐阅读路径

先从层次聚类和 k-means 建立数据分群直觉，再进入 MSA 与系统发育方法。

问题定义

系统发育树重建问题（Phylogenetic Tree Reconstruction Problem）：

给定 $n$ 个物种（或基因序列）的特征数据，重建一棵能最好地解释这些数据的进化树。

输入： $n$ 个物种的特征矩阵（如多序列比对结果）或 $n \times n$ 距离矩阵 $D$

输出：一棵带权树 $T$ ，其中叶子节点对应现存的 $n$ 个物种，内部节点对应假设的祖先物种，边权表示进化距离或时间

系统发育分析试图根据序列或特征差异重建物种、基因或样本之间的进化关系。

在过去，生物学家依赖形态学特征（如喙的形状、鳍的存在与否）来构建进化树。今天，DNA序列为重建进化树提供了更客观的依据。

一个著名的例子是大熊猫分类争议：

另一个重要案例是人类起源的”出非洲”假说：

它位于”分析方向与案例”之下，承担的是应用层中的一个经典方向：把序列相似性、表达模式相似性与树方法重新组织成结构解释。

系统发育把比对、距离、模型和统计推断的结果，转换成更高层的关系结构。它既是一个独立主题，也是很多比较分析和进化研究中的解释层。

方法类型	代表算法	核心思想	适用场景
距离法	UPGMA, Neighbor-Joining	从距离矩阵重建树	快速分析，大样本
简约法	Fitch, Sankoff	最小化进化变化次数	序列相似度高
似然法	Maximum Likelihood, Bayesian	最大化数据概率	准确推断，统计评估