python - Newick 树表示为 scipy.cluster.hierarchy 链接矩阵格式-6ren

python - Newick 树表示为 scipy.cluster.hierarchy 链接矩阵格式

转载作者：太空狗更新时间：2023-10-30 02:59:41

31

4

我有一组基因，它们已根据 DNA 序列进行比对和聚类，并且我在 Newick 树表示中有这组基因 (https://en.wikipedia.org/wiki/Newick_format)。有谁知道如何将这种格式转换为 scipy.cluster.hierarchy.linkage 矩阵格式？来自链接矩阵的 scipy 文档:

A (n-1) by 4 matrix Z is returned. At the i-th iteration, clusters with indices Z[i, 0] and Z[i, 1] are combined to form cluster n+i. A cluster with an index less than n corresponds to one of the n original observations. The distance between clusters Z[i, 0] and Z[i, 1] is given by Z[i, 2]. The fourth value Z[i, 3] represents the number of original observations in the newly formed cluster.

至少从 scipy 文档来看，他们对这个链接矩阵的结构的描述相当困惑。他们所说的“迭代”是什么意思？此外，这种表示如何跟踪哪些原始观测值位于哪个集群中？

我想弄清楚如何进行这种转换，因为我项目中的其他聚类分析的结果已经用 scipy 表示法完成，并且我一直将其用于绘图目的。

最佳答案

我知道了如何从树表示中生成链接矩阵，感谢@cel 的澄清。让我们以 Newick 维基页面 (https://en.wikipedia.org/wiki/Newick_format) 中的示例为例

字符串格式的树是:

(A:0.1,B:0.2,(C:0.3,D:0.4):0.5);

首先，应该计算所有叶子之间的距离。例如，我们要计算A和B的距离，方法是通过最近的分支从A到B遍历树。因为在 Newick 格式中，我们得到了每片叶子和 Twig 之间的距离，所以从 A 到 B 的距离很简单0.1 + 0.2 = 0.3。对于 A 到 D，我们必须做 0.1 + (0.5 + 0.4) = 1.0，因为从 D 到最近的分支的距离给定为 0.4，而从 D 的分支到 A 的距离是0.5。因此距离矩阵看起来像这样(索引 A=0，B=1，C=2，D=3):

distance_matrix=
 [[0.0, 0.3, 0.9, 1.0],
  [0.3, 0.0, 1.0, 1.1],
  [0.9, 1.0, 0.0, 0.7],
  [1.0, 1.1, 0.1, 0.0]]

从这里，链接矩阵很容易找到。因为我们已经有 n=4 个集群 (A,B,C,D) 作为原始观察结果，我们需要找到树的额外 n-1 簇。每一步只是简单地将两个聚类组合成一个新聚类，我们取彼此最接近的两个聚类。在这种情况下，A 和 B 离得最近，因此链接矩阵的第一行将如下所示:

[A,B,0.3,2]

从现在开始，我们将 A 和 B 视为一个集群，其到最近分支的距离是 A 和 B 之间的距离。

现在我们剩下 3 个簇，AB、C 和 D。我们可以更新距离矩阵以查看哪些集群距离最近。设 AB 在更新后的距离矩阵中的索引为 0。

distance_matrix=
[[0.0, 1.1, 1.2],
 [1.1, 0.0, 0.7],
 [1.2, 0.7, 0.0]]

我们现在可以看到 C 和 D 彼此最接近，所以让我们将它们组合成一个新的集群。链接矩阵中的第二行现在将是

[C,D,0.7,2]

现在，我们只剩下两个集群，AB 和 CD。这些簇到根分支的距离分别为 0.3 和 0.7，因此它们的距离为 1.0。链接矩阵的最后一行将是:

[AB,CD,1.0,4]

现在，scipy 矩阵实际上不会像我在此处显示的那样具有适当的字符串，我们将使用索引方案，因为我们首先组合了 A 和 B，AB 将有索引 4 和 CD 会有索引 5。所以我们应该在 scipy 链接矩阵中看到的实际结果是:

[[0,1,0.3,2],
 [2,3,0.7,2],
 [4,5,1.0,4]]

这是从树表示到 scipy 链接矩阵表示的一般方法。但是，已经存在其他 python 包中的工具可以读取 Newick 格式的树，从这些工具中，我们可以相当容易地找到距离矩阵，然后将其传递给 scipy 的链接函数。下面是一个小脚本，它完全适用于此示例。

from ete2 import ClusterTree, TreeStyle
import scipy.cluster.hierarchy as sch
import scipy.spatial.distance
import matplotlib.pyplot as plt
import numpy as np
from itertools import combinations


tree = ClusterTree('(A:0.1,B:0.2,(C:0.3,D:0.4):0.5);')
leaves = tree.get_leaf_names()
ts = TreeStyle()
ts.show_leaf_name=True
ts.show_branch_length=True
ts.show_branch_support=True

idx_dict = {'A':0,'B':1,'C':2,'D':3}
idx_labels = [idx_dict.keys()[idx_dict.values().index(i)] for i in range(0, len(idx_dict))]

#just going through the construction in my head, this is what we should get in the end
my_link = [[0,1,0.3,2],
        [2,3,0.7,2],
        [4,5,1.0,4]]

my_link = np.array(my_link)


dmat = np.zeros((4,4))

for l1,l2 in combinations(leaves,2):
    d = tree.get_distance(l1,l2)
    dmat[idx_dict[l1],idx_dict[l2]] = dmat[idx_dict[l2],idx_dict[l1]] = d

print 'Distance:'
print dmat


schlink = sch.linkage(scipy.spatial.distance.squareform(dmat),method='average',metric='euclidean')

print 'Linkage from scipy:'
print schlink

print 'My link:'
print my_link

print 'Did it right?: ', schlink == my_link

dendro = sch.dendrogram(my_link,labels=idx_labels)
plt.show()

tree.show(tree_style=ts)

关于python - Newick 树表示为 scipy.cluster.hierarchy 链接矩阵格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31033835/

31

4

0

文章推荐： python - 从列表框中删除选择，以及从提供它的列表中删除它

文章推荐： python - sklearn 交叉验证遇到 JoblibValueError

文章推荐： python - 给定 'anchor' 和 'reach' 的所有范围组合

文章推荐： python图形工具加载csv文件

r - 矩阵 %in% 矩阵
假设我有两个矩阵，每个矩阵有两列和不同的行数。我想检查并查看一个矩阵的哪些对在另一个矩阵中。如果这些是一维的，我通常只会做 a %in% x得到我的结果。 match似乎只适用于向量。 > a
algorithm - 矩阵-矩阵乘法/矩阵-向量乘法有哪些不同类型的算法
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 个月前。 Improv
math - OpenGL 矩阵 VS DirectX 矩阵
我只处理过 DirectX 矩阵我读过一些文章，说不能将 DirectX 矩阵数学库用于 openGL 矩阵。但我也读过，如果你的数学是一致的，你可以获得类似的结果。那只会让我更加困惑。任何人都
c++ - 使用BLAS和OpenMP优化本征重组(矩阵-对角矩阵-矩阵)产品C++
我编写了一个C++代码来解决线性系统A.x = b，其中A是一个对称矩阵，方法是首先使用LAPACK(E)对角矩阵A = V.D.V^T(因为以后需要特征值)，然后求解x = A^-1.b = V^T
c++ - 动态创建一个 3x2 矩阵；打印它显示一个 2x2 矩阵
我遇到了问题。我想创建二维数组 rows=3 cols=2我的代码如下 int **ptr; int row=3; int col=2; ptr=new int *[col]; for (int i=
matlab - 从 3d 矩阵 Matlab 中获取 2d 矩阵
我有一个 3d mxnxt 矩阵，我希望能够提取 t 2d nxm 矩阵。在我的例子中，我有一个 1024x1024x10 矩阵，我想要 10 张图像显示给我。这不是 reshape ，我每次只需要
matlab - 将 3d 矩阵 reshape 为 2d 矩阵
我在 MATLAB 中有一个 3d 矩阵 (n-by-m-by-t) 表示一段时间内网格中的 n-by-m 测量值.我想要一个二维矩阵，其中空间信息消失了，只剩下 n*m 随着时间 t 的测量值(即:
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
c++ - 给定两个动态 R x C 矩阵，我如何交错行以生成一个 2R x C 矩阵？
使用 eigen2 , 并给定一个矩阵 A a_0_0, a_0_1, a_0_2, ... a_1_0, a_1_0, a_1_2, ... ... 和一个矩阵B: b_0_0, b_0_1, b_
html - 中型和大型设备上为 2 x 2 矩阵，小型设备上为 4 x 1 矩阵
我想知道如何获得下面的布局。在中型和大型设备上，我希望有 2 行和 2 列的布局(2 x 2 矩阵)。在小型(和超小型)设备上或调整为小型设备时，我想要一个 4 行和 1 列的矩阵。我将通过 a
matlab - 将(4D 矩阵 * 1D 向量)操作转换为独立的(3D 矩阵 * 0D 标量)操作，无需循环
有什么方法可以向量化以下内容: for i = 1:6 te = k(:,:,:,i).*(c(i)); end 我正在尝试将 4D 矩阵 k 乘以向量 c，方法是将其
随机抽样 - 矩阵
如何从填充有 1 和 0 的矩阵中抽取 n 个随机点的样本？ a=rep(0:1,5) b=rep(0,10) c=rep(1,10) dataset=matrix(cbind(a,b,c),nrow
JavaScript 矩阵
我正在尝试创建一个包含 X 个 X 的矩阵。以下代码生成从左上角到右下角的 X 对 Angular 线，而不是从右上角到左下角的 X 对 Angular 线。我不确定从哪里开始。是否应该使用新变量创建
Python 矩阵
我想在 python 中创建一个每行三列的矩阵，并能够通过任何一行对它们进行索引。矩阵中的每个值都是唯一的。据我所知，我可以设置如下矩阵: matrix = [["username", "name"
java如何创建不同对象的数组/矩阵
我有点迷茫我创建了一个名为 person 的类，它具有 age 和 name 属性(以及 get set 方法)。然后在另一个类中，我想创建一个 persons 数组，其中每个人都有不同的年龄和姓名
Java多维散列/矩阵
我有 n 个类，它们要么堆叠，要么不堆叠。所有这些类都扩展了同一个类 (CellObject)。我知道更多类将添加到此列表中，我想创建一种易于在一个地方操纵“可堆叠性”的方法。我正在考虑创建一个矩阵
Python模糊字符串匹配作为相关样式表/矩阵
我有一个包含 x 个字符串名称及其关联 ID 的文件。本质上是两列数据。我想要的是一个格式为 x x x 的相关样式表(将相关数据同时作为 x 轴和 y 轴)，但我想要 fuzzywuzzy 库的函
机器学习的数学基础--向量，矩阵
机器学习与传统编程的一个重要区别在于机器学习比传统编程涉及了更多的数学知识。不过，随着机器学习的飞速发展，各种框架应运而生，在数据分析等应用中使用机器学习时，使用现成的库和框架成为常态，似乎越来越不需
Julia 问题与结束，矩阵
当我在 julia 中输入这个错误跳转但我不知道为什么，它应该工作。/ julia> A = [1 2 3 4; 5 6 7 8; 1 2 3 4; 5 6 7 8] 4×4 Array{Int64,

首页

博学

6Ren·AI

商城

python - Newick 树表示为 scipy.cluster.hierarchy 链接矩阵格式