gpt4 book ai didi

使用 numpy 数组输入的 Python 函数给出了意想不到的结果

转载 作者:太空宇宙 更新时间:2023-11-04 02:57:33 25 4
gpt4 key购买 nike

我的程序中有一个计算相关系数的函数。它采用两个平面(一维)numpy 数组并对它们执行必要的计算以计算出两个数字列表(它们是货币,类型为 float)之间的相关性。只要程序运行,此函数每个循环执行 136 次,每个循环大约需要 0.05 秒。以下代码按预期计算系数:

def CC(a, b):
a = a - np.mean(a)
b = b - np.mean(b)
ab = np.sum(a*b)
asq = np.sum(a**2)
bsq = np.sum(b**2)
cc = round(ab / sqrt(asq * bsq), 5)
return cc

然而,它最终会导致内存泄漏。解决此内存泄漏的方法是将函数更改为:

def CC(a, b):
cc = round(np.sum((a - np.mean(a)) * (b - np.mean(b))) / sqrt(np.sum(a**2) * np.sum(b**2)), 5)
return cc

它在一行中完成所有工作并且不会创建任何新列表,因此可以节省内存并避免泄漏。

但是,由于某些奇怪的原因,当使用方法 2 时,返回值从 0.1 ish 开始,然后在大约 20 秒的过程中下降到 0,然后从那时起保持在 0。每次都会发生这种情况。我也尝试过方法 2 的替代方法,即 1 或 2 个额外的计算步骤 - 结果相同。我已经通过消除过程隔离了所有可能的错误来源,并且所有错误都归结为函数本身内部发生的事情,所以它一定是那里的问题。到底是什么原因造成的?就好像函数 CC 忽略了给定的输入...如果它以某种方式设置...?

最佳答案

您的代码不相等,第一个代码在第一步中重新分配了 ab:

a = a - np.mean(a)
b = b - np.mean(b)

所有后续操作都使用更新后的ab。但是,您的第二种方法只是忽略了 sqrt-term 中的这些:

sqrt(np.sum(a**2) * np.sum(b**2))

它应该与:

sqrt(np.sum((a-a.mean())**2) * np.sum((b-b.mean())**2))

一些额外的评论:

Which works it all out in one line and doesn't create any new lists, hence saving memory.

那不是真的(至少不总是),它仍然会产生新的数组。但我可以看到两个可以避免创建中间数组的地方:

np.subtract(a, a.mean(), out=a)  
# instead of "a = a - np.mean(a)"
# possible also "a -= a" should work without temporary array, but I'm not 100% sure.

同样适用于 b = b - np.mean(b)

However it eventually results in a memory leak.

我在第一个函数中找不到任何内存泄漏的证据。


如果你关心中间数组,你总是可以自己做操作。我用 显示它但这可以很容易地移植到 或类似的(但我不需要添加类型注释):

import numpy as np
import numba as nb
from math import sqrt

@nb.njit
def CC_helper(a, b):
sum_ab = 0.
sum_aa = 0.
sum_bb = 0.
for idx in range(a.size):
sum_ab += a[idx] * b[idx]
sum_aa += a[idx] * a[idx]
sum_bb += b[idx] * b[idx]
return sum_ab / sqrt(sum_aa * sum_bb)

def CC1(a, b):
np.subtract(a, a.mean(), out=a)
np.subtract(b, b.mean(), out=b)
res = CC_helper(a, b)
return round(res, 5)

并将性能与您的两个函数进行比较:

def CC2(a, b):
a = a - np.mean(a)
b = b - np.mean(b)
ab = np.sum(a*b)
asq = np.sum(a**2)
bsq = np.sum(b**2)
cc = round(ab / sqrt(asq * bsq), 5)
return cc

def CC3(a, b):
cc = round(np.sum((a - np.mean(a)) * (b - np.mean(b))) / sqrt(np.sum((a - np.mean(a))**2) * np.sum((b - np.mean(b))**2)), 5)
return cc

并确保结果相同并计时:

a = np.random.random(100000)
b = np.random.random(100000)

assert CC1(arr1, arr2) == CC2(arr1, arr2)
assert CC1(arr1, arr2) == CC3(arr1, arr2)

%timeit CC1(arr1, arr2) # 100 loops, best of 3: 2.06 ms per loop
%timeit CC2(arr1, arr2) # 100 loops, best of 3: 5.98 ms per loop
%timeit CC3(arr1, arr2) # 100 loops, best of 3: 7.98 ms per loop

关于使用 numpy 数组输入的 Python 函数给出了意想不到的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41926586/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com