系统发育与进化
系统发育树重建问题(Phylogenetic Tree Reconstruction Problem):
给定 个物种(或基因序列)的特征数据,重建一棵能最好地解释这些数据的进化树。
输入: 个物种的特征矩阵(如多序列比对结果)或 距离矩阵
输出:一棵带权树 ,其中叶子节点对应现存的 个物种,内部节点对应假设的祖先物种,边权表示进化距离或时间
系统发育分析试图根据序列或特征差异重建物种、基因或样本之间的进化关系。
在过去,生物学家依赖形态学特征(如喙的形状、鳍的存在与否)来构建进化树。今天,DNA序列为重建进化树提供了更客观的依据。
一个著名的例子是大熊猫分类争议:
- 1870年,大熊猫被归类为浣熊科(基于骨骼相似性)
- 1985年,Steven O’Brien等人使用DNA序列和算法解决了这一争议,证明大熊猫属于熊科
- 这项研究使用了约50万个核苷酸来构建熊和浣熊的进化树
另一个重要案例是人类起源的”出非洲”假说:
- Rebecca Cann、Mark Stoneking和Allan Wilson通过构建人类线粒体DNA的进化树
- 提出了现代人类在约20万年前起源于非洲的假说
- 这展示了系统发育分析如何将人类起源问题转化为算法问题
这一部分在全站中的位置
Section titled “这一部分在全站中的位置”它位于”分析方向与案例”之下,承担的是应用层中的一个经典方向:把序列相似性、表达模式相似性与树方法重新组织成结构解释。
为什么这一节重要
Section titled “为什么这一节重要”系统发育把比对、距离、模型和统计推断的结果,转换成更高层的关系结构。它既是一个独立主题,也是很多比较分析和进化研究中的解释层。
三种主要的系统发育重建方法
Section titled “三种主要的系统发育重建方法”| 方法类型 | 代表算法 | 核心思想 | 适用场景 |
|---|---|---|---|
| 距离法 | UPGMA, Neighbor-Joining | 从距离矩阵重建树 | 快速分析,大样本 |
| 简约法 | Fitch, Sankoff | 最小化进化变化次数 | 序列相似度高 |
| 似然法 | Maximum Likelihood, Bayesian | 最大化数据概率 | 准确推断,统计评估 |
推荐阅读顺序
Section titled “推荐阅读顺序”我们推荐以下学习路径:
- 层次聚类 — 理解树状结构的基本构建方法
- k-means 在生物信息学中的应用 — 理解聚类与分区概念
- 多序列比对(MSA) — 获得系统发育分析的输入数据
- 距离方法概览 — 理解距离矩阵方法的一般框架
- UPGMA算法 — 学习基于分子钟假设的层次聚类
- Neighbor-Joining算法 — 学习不依赖分子钟假设的距离法
- 加法系统发育(Additive Phylogeny) — 理解距离矩阵与树的理论关系
- Parsimony — 学习基于最小进化的位点方法
- Maximum Likelihood — 学习基于统计模型的现代方法
表达数据
层次聚类
从 gene/sample expression matrix 出发,理解 dendrogram 和树状结构的直觉。
进入子主题 表达数据
k-means 在生物信息学中的应用
理解基因表达聚类与样本分群中的 k-means 目标函数和局限。
进入子主题 起点
距离方法概览
从相似性、距离矩阵和聚类视角理解树是如何被构建出来的。
进入子主题 理论骨架
加法系统发育(Additive Phylogeny)
理解当距离矩阵精确来自一棵树时,树结构如何被恢复出来。
进入子主题 位点方法
Parsimony
从位点变化次数最少的角度理解树推断。
进入子主题 模型方法
Maximum Likelihood
在演化模型下,寻找最可能产生当前观测序列的树。
进入子主题与表达数据分析的连接
Section titled “与表达数据分析的连接”- RNA-seq 工作流概览 中的表达矩阵常用层次聚类或 k-means 做初步模式探索;
- TPM、FPKM、CPM 与有效长度 提供 expression matrix 的输入背景;
- 树状图在 expression analysis 中更偏相似性可视化,不应直接等同于真实进化树。
与其他板块的连接
Section titled “与其他板块的连接”- 上游依赖 多序列比对(MSA) 和 序列比对 提供同源位点基础;
- 作为 分析方向与案例 中的一个专题入口;
- 也和概率模型页中对 HMM、profile 的理解形成方法论对照:一个是序列状态模型,一个是树结构模型。