python - 使用 Numpy 和 Cython 加速距离矩阵计算-6ren

python - 使用 Numpy 和 Cython 加速距离矩阵计算

转载作者：太空狗更新时间：2023-10-29 22:26:13

44

4

考虑一个维度为 NxM 的 numpy 数组 A。目标是计算欧氏距离矩阵 D，其中每个元素 D[i,j] 是行 i 和 j 之间的欧氏距离。最快的方法是什么？这不完全是我需要解决的问题，但它是我正在尝试做的事情的一个很好的例子(一般来说，可以使用其他距离度量)。

这是迄今为止我能想到的最快速度:

n = A.shape[0]
D = np.empty((n,n))
for i in range(n):
    D[i] = np.sqrt(np.square(A-A[i]).sum(1))

但这是最快的方法吗？我主要关心 for 循环。我们可以用 Cython 来打败它吗？

为了避免循环，我尝试使用广播，并执行如下操作:

D = np.sqrt(np.square(A[np.newaxis,:,:]-A[:,np.newaxis,:]).sum(2))

但事实证明这是个坏主意，因为在构造一个 NxNxM 维数的中间 3D 数组时有一些开销，所以性能更差。

我试过 Cython。但是我是Cython的新手，所以我不知道我的尝试有多好:

def dist(np.ndarray[np.int32_t, ndim=2] A):
    cdef int n = A.shape[0]    
    cdef np.ndarray[np.float64_t, ndim=2] dm = np.empty((n,n), dtype=np.float64)      
    cdef int i = 0    
    for i in range(n):  
        dm[i] = np.sqrt(np.square(A-A[i]).sum(1)).astype(np.float64)              
    return dm

上面的代码比 Python 的 for 循环要慢一点。我不太了解 Cython，但我认为我至少可以实现与 for 循环 + numpy 相同的性能。我想知道如果以正确的方式完成，是否有可能实现一些显着的性能改进？或者是否有其他方法可以加快速度(不涉及并行计算)？

最佳答案

Cython 的关键是尽可能避免使用 Python 对象和函数调用，包括对 numpy 数组的矢量化操作。这通常意味着手动写出所有循环并一次对单个数组元素进行操作。

有一个 very useful tutorial here涵盖了将 numpy 代码转换为 Cython 并对其进行优化的过程。

这是对距离函数的更优化的 Cython 版本的快速尝试:

import numpy as np
cimport numpy as np
cimport cython

# don't use np.sqrt - the sqrt function from the C standard library is much
# faster
from libc.math cimport sqrt

# disable checks that ensure that array indices don't go out of bounds. this is
# faster, but you'll get a segfault if you mess up your indexing.
@cython.boundscheck(False)
# this disables 'wraparound' indexing from the end of the array using negative
# indices.
@cython.wraparound(False)
def dist(double [:, :] A):

    # declare C types for as many of our variables as possible. note that we
    # don't necessarily need to assign a value to them at declaration time.
    cdef:
        # Py_ssize_t is just a special platform-specific type for indices
        Py_ssize_t nrow = A.shape[0]
        Py_ssize_t ncol = A.shape[1]
        Py_ssize_t ii, jj, kk

        # this line is particularly expensive, since creating a numpy array
        # involves unavoidable Python API overhead
        np.ndarray[np.float64_t, ndim=2] D = np.zeros((nrow, nrow), np.double)

        double tmpss, diff

    # another advantage of using Cython rather than broadcasting is that we can
    # exploit the symmetry of D by only looping over its upper triangle
    for ii in range(nrow):
        for jj in range(ii + 1, nrow):
            # we use tmpss to accumulate the SSD over each pair of rows
            tmpss = 0
            for kk in range(ncol):
                diff = A[ii, kk] - A[jj, kk]
                tmpss += diff * diff
            tmpss = sqrt(tmpss)
            D[ii, jj] = tmpss
            D[jj, ii] = tmpss  # because D is symmetric

    return D

我将其保存在名为 fastdist.pyx 的文件中。我们可以使用 pyximport 来简化构建过程:

import pyximport
pyximport.install()
import fastdist
import numpy as np

A = np.random.randn(100, 200)

D1 = np.sqrt(np.square(A[np.newaxis,:,:]-A[:,np.newaxis,:]).sum(2))
D2 = fastdist.dist(A)

print np.allclose(D1, D2)
# True

至少它是有效的。让我们使用 %timeit 魔法做一些基准测试:

%timeit np.sqrt(np.square(A[np.newaxis,:,:]-A[:,np.newaxis,:]).sum(2))
# 100 loops, best of 3: 10.6 ms per loop

%timeit fastdist.dist(A)
# 100 loops, best of 3: 1.21 ms per loop

~9 倍的加速是不错的，但并不是真正的游戏规则改变者。不过，正如您所说，广播方法的大问题是构造中间数组的内存要求。

A2 = np.random.randn(1000, 2000)
%timeit fastdist.dist(A2)
# 1 loops, best of 3: 1.36 s per loop

我不建议尝试使用广播...

我们可以做的另一件事是使用 prange 函数将其并行化到最外层的循环中:

from cython.parallel cimport prange

...

for ii in prange(nrow, nogil=True, schedule='guided'):
...

为了编译并行版本，您需要告诉编译器启用 OpenMP。我还没有弄清楚如何使用 pyximport 执行此操作，但如果您使用的是 gcc，则可以像这样手动编译它:

$ cython fastdist.pyx
$ gcc -shared -pthread -fPIC -fwrapv -fopenmp -O3 \
   -Wall -fno-strict-aliasing  -I/usr/include/python2.7 -o fastdist.so fastdist.c

并行，使用 8 个线程:

%timeit D2 = fastdist.dist_parallel(A2)
1 loops, best of 3: 509 ms per loop

关于python - 使用 Numpy 和 Cython 加速距离矩阵计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25213603/

44

4

0

文章推荐： python - 错误 : no viable alternative at input 'for' Python

文章推荐： c# - CSVHelper 必填字段

文章推荐： c# - 在 ObjectListView 中应用默认排序列

文章推荐： Python 混淆函数引用

cython - cython 何时以及如何进行边界检查？
c 不做边界检查。那么cython是如何检查是否编译成c的呢？ %%cython --annotate cimport cython @cython.boundscheck(True) cpdef m
cython - Cython 中的
可以直接声明用于 Cython 构造函数？据我了解，这是可能的: # Cython cdef int[3] li = [1, 2, 3] # C++ int[3] li = {1, 2, 3} 但
cython - 在 Cython 中将结构自动转换为字典
所以，如果你有一个头文件。 %%file test.h struct mystruct{ int i; int j; }; 然后你将它包装在 Cython 中: cdef extern fr
cython - 如何在定义 cython 扩展之前识别编译器？
我正在构建一个独立于平台的 cython 项目，我想根据正在使用的编译器传递编译器参数。我可以猜测基于平台的编译器，或者假设它与用于 Python 的编译器相同，但不能保证匹配。通常我注入(injec
cython - 诗歌+狮身人面像+Cython
我使用诗歌构建我的 cython 包。我在所有函数和类中都有 NumPy 风格的文档字符串。我现在要做的是添加 Sphinx 自动文档并发布在 Read the Docs。我已阅读此主题 How d
cython - 将自定义比较器传递给 Cython 中的优先级队列
赛通 libcpp模块包含 priority_queue 的模板，这很好，除了一件事:我不能通过自定义比较器(或者，至少，我不知道如何)。我需要这个，因为我需要 priority_queue做一个a
cython - 如何在文档中显示 Cython 函数的参数？
以下代码定义了一个简单的 Cython 函数(为方便起见，使用 Ipython 魔法)。 %load_ext cython %%cython def f(float x, float y=2):
cython - 使用 Cython 进行复值计算
我正在尝试使用 cython 进行复数计算。在示例代码中，我想计算复数的复指数函数。问题是我不知道如何将我的整数乘以虚数单位。python的虚数单位1.0j乘以cython执行时报错。这是我的代码:
cython - 在 Cython 中定义字符串数组
在这里停留在一些基本的 Cython 上 - 在 Cython 中定义字符串数组的规范且有效的方法是什么？具体来说，我想定义一个定长常量数组char . (请注意，此时我不想引入 NumPy。) 在
cython - 在 Cython 中在编译时获取整数的大小
是否有可能，如果是，如何确定 Cython 中整数数据类型的大小(以位为单位)？我正在尝试做这样的事情，以获得整数大小: cdef WORD_BITS = 0 IF sizeof(unsigned
cython - 打印 cython 变量的地址
我只是想打印 cython 变量的地址，但我无法绕过错误消息: cdef int myvar print &myvar 抛出 Cannot convert 'int *' to Python obje
cython - 如何在 Cython 中扩展宏
我有一个 C 头文件，它在宏中定义了一个函数。我需要从 Cython 调用它。有没有办法在 Cython 中使用宏并使其完全扩展？我已经有了 C 类型的参数。我尝试像使用函数一样使用 cdef，我认
cython - 在 Cython 中获取结构元素
令人惊讶的是，我似乎找不到通过名称获取结构体元素的单个示例(无论是在网络上还是在 cython 示例中)。所以我收到了一个指向 C 函数结构体的指针，并且想要一一访问这些元素并将它们重新打包到 py
cython - 我的 Cython 有什么问题？
我尝试围绕 C++ 库编写一个 Cython 包装器 http://primesieve.org/ 它包装了一个函数count。到目前为止，它可以正确安装 python setup.py instal
python - Cython:ImportError:没有名为 'myModule' 的模块:如何将包含 cimport 的 cython 模块调用到另一个 cython 结节？
我正在尝试将 cython 模块 data.pyx 导入另一个 cython 模块 user.pyx。一切都编译得很好，但是当我尝试在 python 模块中调用 user.pyx 时，我收到错误“Im
cython - Bakeoff 第 1 部分 Python vs Cython vs Cython 类型化内存 View : LDA by Gibbs Sampling
更新:内存 View 获胜。Cython 使用类型化内存 View :0.0253449 特别感谢 lothario，他指出了几个关键的变化。荒谬。当然现在的问题是，似乎不能对它们做太多算术(加法和
cython - 为什么不能腌制 cython 内存 View ？
我有一个使用 memoryview 数组的 cython 模块，即... double[:,:] foo 我想使用多处理并行运行这个模块。但是我得到了错误: PicklingError: Can't
cython - mypy 不喜欢别名 Cython 类型
我正在尝试使用 Cython 加速 PEP 484 类型的 python 脚本。我想保持一些语义和可读性。之前，我有一个 Flags = int def difference(f1: Flags,
cython - 使用 cython 为一组文件制作一个 pyd
这个问题已经有答案了: Collapse multiple submodules to one Cython extension (5 个回答) 已关闭 3 年前。我在一个包中有多个 .py 文件
cython - 如何分发从 cython 生成的 .so 文件
我已经能够在我的 .pyx 脚本上使用 cython 在 linux 上创建一个 .so 文件。我也可以成功地在我的 python 解释器上进行导入。我的问题是如何在不使用 cython 的情况下将

首页

博学

6Ren·AI

商城

python - 使用 Numpy 和 Cython 加速距离矩阵计算