python - 使用numpy在python中矢量化空间距离-6ren

python - 使用numpy在python中矢量化空间距离

转载作者：太空宇宙更新时间：2023-11-04 08:32:10

68

4

我在 python 中有一个 numpy 数组，它包含很多 (10k+) 个 3D 顶点(坐标为 [x,y,z] 的向量)。我需要计算这些点的所有可能对之间的距离。

使用 scipy 很容易做到:

import scipy
D = spdist.cdist(verts, verts)

但由于引入新依赖项的项目政策，我不能使用它。

所以我想出了这个天真的代码:

def vert_dist(self, A, B):
    return ((B[0]-A[0])**2+(B[1]-A[1])**2+(B[2]-A[2])**2)**(1.0/2)

# Pairwise distance between verts
#Use SciPy, otherwise use fallback
try:
    import scipy.spatial.distance as spdist
    D = spdist.cdist(verts, verts)
except ImportError:
    #FIXME: This is VERY SLOW:
    D = np.empty((len(verts), len(verts)), dtype=np.float64)
    for i,v in enumerate(verts):
        #self.app.setStatus(_("Calculating distance %d of %d (SciPy not installed => using SLOW AF fallback method)"%(i,len(verts))), True)
        for j in range(i,len(verts)):
            D[j][i] = D[i][j] = self.vert_dist(v,verts[j])

vert_dist() 计算两个顶点之间的 3D 距离，其余代码只是遍历一维数组中的顶点，并为每个顶点计算同一数组中每个顶点之间的距离，并生成距离的二维数组。

但与 scipy 的 native C 代码相比，这非常慢(1000 倍)。我想知道我是否可以使用纯 numpy 来加速它。至少在某种程度上。

顺便说一句，我已经尝试过 PyPy JIT 编译器，它比纯 python 还要慢(10 倍)。

更新:我能够像这样加快速度:

    def vert_dist_matrix(self, verts):
            #FIXME: This is VERY SLOW:
            D = np.empty((len(verts), len(verts)), dtype=np.float64)
            for i,v in enumerate(verts):
                    D[i] = D[:,i] = np.sqrt(np.sum(np.square(verts-verts[i]), axis=1))
            return D

这通过一次计算整行来消除内部循环，这使得东西更快，但仍然明显比 scipy 慢。所以还是看@Divakar的解决方案

最佳答案

有 eucl_dist包(免责声明:我是它的作者)基本上包含两种方法来解决计算平方欧氏距离的问题，这两种方法比 SciPy 的 cdist 更有效，特别是对于大型数组(具有相当大的列数).

我们将使用其 source code 中的一些代码适应我们这里的问题给我们两种方法。

方法 #1

在 wiki contents 之后, 我们可以利用 matrix-multiplication 和一些 NumPy specific implementations对于我们的第一种方法，就像这样 -

def pdist_squareformed_numpy(a):
    a_sumrows = np.einsum('ij,ij->i',a,a)
    dist = a_sumrows[:,None] + a_sumrows -2*np.dot(a,a.T)
    np.fill_diagonal(dist,0)
    return dist

方法 #2

另一种方法是创建输入数组的“扩展”版本，在该 github 源代码链接中再次详细讨论了我们的第二种方法，这对于较小的列更好，就像这里的情况一样 -

def ext_arrs(A,B, precision="float64"):
    nA,dim = A.shape
    A_ext = np.ones((nA,dim*3),dtype=precision)
    A_ext[:,dim:2*dim] = A
    A_ext[:,2*dim:] = A**2

    nB = B.shape[0]
    B_ext = np.ones((dim*3,nB),dtype=precision)
    B_ext[:dim] = (B**2).T
    B_ext[dim:2*dim] = -2.0*B.T
    return A_ext, B_ext

def pdist_squareformed_numpy_v2(a):
    A_ext, B_ext = ext_arrs(a,a)
    dist = A_ext.dot(B_ext)
    np.fill_diagonal(dist,0)
    return dist

请注意，这些为我们提供了平方欧氏距离。因此，对于实际距离，如果这是所需的最终输出，我们希望使用 np.sqrt()。

样本运行-

In [380]: np.random.seed(0)
     ...: a = np.random.rand(5,3)

In [381]: from scipy.spatial.distance import cdist

In [382]: cdist(a,a)
Out[382]: 
array([[0.  , 0.29, 0.42, 0.2 , 0.57],
       [0.29, 0.  , 0.58, 0.42, 0.76],
       [0.42, 0.58, 0.  , 0.45, 0.9 ],
       [0.2 , 0.42, 0.45, 0.  , 0.51],
       [0.57, 0.76, 0.9 , 0.51, 0.  ]])

In [383]: np.sqrt(pdist_squareformed_numpy(a))
Out[383]: 
array([[0.  , 0.29, 0.42, 0.2 , 0.57],
       [0.29, 0.  , 0.58, 0.42, 0.76],
       [0.42, 0.58, 0.  , 0.45, 0.9 ],
       [0.2 , 0.42, 0.45, 0.  , 0.51],
       [0.57, 0.76, 0.9 , 0.51, 0.  ]])

In [384]: np.sqrt(pdist_squareformed_numpy_v2(a))
Out[384]: 
array([[0.  , 0.29, 0.42, 0.2 , 0.57],
       [0.29, 0.  , 0.58, 0.42, 0.76],
       [0.42, 0.58, 0.  , 0.45, 0.9 ],
       [0.2 , 0.42, 0.45, 0.  , 0.51],
       [0.57, 0.76, 0.9 , 0.51, 0.  ]])

10k 点计时 -

In [385]: a = np.random.rand(10000,3)

In [386]: %timeit cdist(a,a)
1 loop, best of 3: 309 ms per loop

# Approach #1
In [388]: %timeit pdist_squareformed_numpy(a) # squared eucl distances
1 loop, best of 3: 668 ms per loop

In [389]: %timeit np.sqrt(pdist_squareformed_numpy(a)) # actual eucl distances
1 loop, best of 3: 812 ms per loop

# Approach #2
In [390]: %timeit pdist_squareformed_numpy_v2(a) # squared eucl distances
1 loop, best of 3: 237 ms per loop

In [391]: %timeit np.sqrt(pdist_squareformed_numpy_v2(a)) # actual eucl distances
1 loop, best of 3: 395 ms per loop

第二种方法在性能上似乎接近 cdist 方法!

关于python - 使用numpy在python中矢量化空间距离，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52030458/

68

4

0

文章推荐： java - 转换大尺寸 jpg 图像时抛出异常

文章推荐： javascript - Ajax 成功函数动画

文章推荐： javascript - 执行函数 appear() 出现在 If 语句中

Tomcat 用完了 PermGen 空间，即使保留了很多 PermGen 空间
运行 Tomcat 失败并出现 java.lang.OutOfMemoryError - 与缺少 PermGen 空间相关的错误。我最近将 Tomcat 更改为以自己的用户(而非 root)运行。
空间+时间参数的Postgresql复合索引
我们有一个表，其中包含数百万行，其中包含 PostGIS 几何图形。我们要执行的查询是:落在边界几何内的最新条目是什么？这个查询的问题是我们经常会有大量的项目匹配边界框(半径大约为 5 公里)，然后
php - Elasticsearch 空间
我有一个Elasticsearch设置，它将允许用户搜索通配符作为索引。 array:3 [ "index" => "users" "type" => "user" "body" => arra
表格中按钮之间的 HTML 空间
我创建了一个表，其中每行包含两个按钮，并且两个按钮连接在一起，我想将两个按钮分开。我用过不起作用，css 也是，这是他们的另一种方式。我有另一个问题，因为我不想在表格边框内显示操作按钮，而是在靠近
按钮之间的 CSS 空间
我试图在 jQuery Mobile 中的两个按钮之间留出空白。现实中的布局是这样的: Button 1 Button 2 (Hidden w/ display: none)
函数后的 JavaScript 空间
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
android - 如何使用图表引擎减少条形图和图表图例之间的间隙/空间？
您好，我对图表应用程序还很陌生。现在我为我的应用程序创建了条形图。当我运行 create bar chart as separate project 时，输出如下所示。然后当我将条形图与我的应用程序
hibernate 空间 : can't find function
我在使用 H2 和 GeoDB(内存中，junit)时遇到问题。另外，使用 Hibernate 5(每个包的最新版本，包括 hibernate-spatial)和 Spring 4。通过 id 实
r - 映射澳大利亚城市 - R 空间
我想画一张澳大利亚的 map ，并将每个城市表示为一个点。然后突出显示人口众多(> 1M)的城市 library(sp) library(maps) data(canada.cities) head
Cassandra:备份整个 key 空间
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 提供事实和引用来回答它. 6年前关闭。 Improve this
delphi - Memo1.Loadfromfile()空间
如何保持.txt文件中存在的空格？在.txt文件中，它表示： text :text text1 :text1 text23 :text2 text345 :text3 如果我写这段
passwords - 如何计算密码的 key 空间？
以下哪个键最大？选项 1:16 个数字 [0,9] 选项 2:30 个元音选项 3:字母表中的 16 个字母选项 4:32 位有人可以帮助我，告诉我哪一个是正确的答案以及我们如何计算它吗？我知
android - Azure 空间 anchor
在 Unity 3d 中使用 Azure 空间 anchor 来实现在 iOS 和 Android 上部署的室内和室外增强现实体验是否有益？最佳答案是的，对于 Azure Spatial Anch
javascript - 调整大小的图像占用太多 UI 空间
我有一个绝对定位的圆形图像。图像只需占据屏幕宽度的 17%，并且距离顶部 5 个像素。问题是，当我调整图像大小以占据屏幕宽度的 17% 时，它会这样做，但同时容器会变长。图像本身不会拉伸(stret
cassandra - 使用nodetool备份cassandra key 空间
我在 Ubuntu 14.04 上使用 Cassandra。从文档中，我可以看到运行命令: nodetool snapshot 创建我的 key 空间的快照。命令的输出是: nodetool sn
Heroku 将应用程序迁移到私有(private)空间
Heroku引入了“私有(private)空间”，是否可以将现有应用迁移到私有(private)空间？ https://blog.heroku.com/archives/2015/9/10/herok
mediawiki - 在语义记录中设置非绑定(bind)空间
是否允许在语义记录中使用非绑定(bind)空格或其他 HTML 编码字符？我遇到的问题是 ; 字符被软件视为记录的结尾。例如:假设我有一份婚姻记录，其中包含 2 个结婚者的姓氏、结婚年份以及结
python - 自动泊车位检测-如何使用OpenCV和Python初始化泊车位图/空间
我正在研究“智能 parking ”项目，偶然发现了包含我们真正需要的YouTube视频。我们已经实现了第一部分，即从视频源进行实时透视变换，下一步是将其定义为一组矩形我基本上需要知道他是如何做到的
java - 如何为两个类创建共享 ID 空间？
我有两个类:Engine 和 Trainset(多个单元)，这两个类共享其 ID 空间，其中包含名称和系列 id=- . 这是我的Engine类(它是抽象的，因为有引擎的子类型(DieselEngin
java - 分割字符串 Java 空间
如果有人能帮助我，那就太好了。我正在尝试使用Java的Split命令，使用空格分割字符串，但问题是，字符串可能没有空格，这意味着它将只是一个简单的顺序(而不是“输入2”将是“退出”) Scanner

首页

博学

6Ren·AI

商城

python - 使用numpy在python中矢量化空间距离