gpt4 book ai didi

python - 为什么 np.linalg.norm(..., axis=1) 比写出向量范数的公式慢?

转载 作者:行者123 更新时间:2023-12-04 01:10:43 24 4
gpt4 key购买 nike

要将矩阵 X 的行归一化为单位长度,我通常使用:

X /= np.linalg.norm(X, axis=1, keepdims=True)

尝试为算法优化此操作时,我很惊讶地发现在我的机器上写出规范化速度大约快 40%:

X /= np.sqrt(X[:,0]**2+X[:,1]**2+X[:,2]**2)[:,np.newaxis]
X /= np.sqrt(sum(X[:,i]**2 for i in range(X.shape[1])))[:,np.newaxis]

怎么来的? np.linalg.norm() 性能丢失在哪里?

import numpy as np
X = np.random.randn(10000,3)

%timeit X/np.linalg.norm(X,axis=1, keepdims=True)
# 276 µs ± 4.55 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit X/np.sqrt(X[:,0]**2+X[:,1]**2+X[:,2]**2)[:,np.newaxis]
# 169 µs ± 1.38 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

%timeit X/np.sqrt(sum(X[:,i]**2 for i in range(X.shape[1])))[:,np.newaxis]
# 185 µs ± 4.17 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

我在带有 OpenBLAS 的 MacbookPro 2015 上观察到 (1) python3.6 + numpy v1.17.2(2) python3.9 + numpy v1.19.3支持。

我认为这不是 this post 的副本,它解决矩阵范数,而这个是关于向量的 L2 范数。

最佳答案

source code对于逐行 L2 范数归结为以下代码行:

def norm(x, keepdims=False):
x = np.asarray(x)
s = x**2
return np.sqrt(s.sum(axis=(1,), keepdims=keepdims))

简化代码假定实值 x 并利用 np.add.reduce(s, ...) 的事实等同于 s.sum(...)

因此,OP 问题与询问为什么 np.sum(x,axis=1)sum(x[:,i] for i in range(x .shape[1])):

%timeit X.sum(axis=1, keepdims=False)
# 131 µs ± 1.6 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
%timeit sum(X[:,i] for i in range(X.shape[1]))
# 36.7 µs ± 91.2 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

这个问题已经有人回答了here .简而言之,减少 (.sum(axis=1)) 带来的开销成本通常会在浮点精度和速度(例如缓存机制、并行性)方面得到返回,但不要在仅减少三列的特殊情况下。在这种情况下,与实际计算相比,开销相对较大。

如果 X 有更多列,情况就会改变。 numpy 增强的规范化现在比使用 python for 循环的缩减要快得多:

X = np.random.randn(10000,100)
%timeit X/np.linalg.norm(X,axis=1, keepdims=True)
# 3.36 ms ± 132 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit X/np.sqrt(sum(X[:,i]**2 for i in range(X.shape[1])))[:,np.newaxis]
# 5.92 ms ± 168 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

可在此处找到另一个相关的 SO 线程:numpy ufuncs vs. for loop .

问题仍然是为什么 numpy 没有显式处理常见的约简特殊情况(例如对具有低轴维度的矩阵的列或行求和)。可能是因为此类优化的效果通常在很大程度上取决于目标机器,并大大增加了代码的复杂性。

关于python - 为什么 np.linalg.norm(..., axis=1) 比写出向量范数的公式慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64948677/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com