gpt4 book ai didi

python - 有效比较 pandas 系列 float 和 pandas 系列 numpy 数组

转载 作者:行者123 更新时间:2023-12-01 09:11:21 25 4
gpt4 key购买 nike

以下内容是可重现的并返回所需的结果。

import pandas as pd, numpy as np
np.random.seed(3124)

x = 10 + np.random.rand(10)
y = np.split(10 + np.random.rand(100), 10)

x >= y
# array([[False, True, True, False, False, False, False, True, False, True],
# ...
# [False, True, True, True, False, True, False, True, False, False]])

np.apply_along_axis(np.greater_equal, 0, x , y)
# same results as x >= y.

但是,如果上面的 x 和 y 是从 pandas 数据框中提取的,我必须将 pandas 系列数组转换为数组列表。对于大型系列来说,这在计算上非常昂贵。

我如何以更有效的方式完成此任务?

df = pd.DataFrame({'x':x,'y':y})

df['x'].values >= df['y'].tolist()
# same results as above.

df['x'] >= df['y']
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

df['x'].values >= df['y'].values
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

编辑

@Divakar 给出了上述问题的正确答案。但是,在我的实际用例中,y 中的数组的长度都不同。

使用上面的y创建更接近我的数据的y2。以下是可重现的。

y2 = [np.resize(a, r) for a,r in zip(y,np.random.randint(2, 10, 10))]
# yields something like:
# [array([10.1269906 , 10.34269353, 10.39461373, 10.022271 , 10.69316165, 10.83981557, 10.03328485, 10.56850597]),
# array([10.99159117, 10.21215159, 10.65208435, 10.22483111, 10.13748229, 10.72621328]),
# ...
# array([10.61071355, 10.62141997]),
# array([10.3899659 , 10.66207985, 10.85937807]),
# array([10.38374303, 10.93140162, 10.88535643, 10.51529231, 10.60723795, 10.60504599, 10.6773523 ]),
# array([10.02775067, 10.91382588, 10.31222259, 10.44732757, 10.16980452, 10.88914854, 10.22677905])]

以下返回我想要的结果,但对于我的实际数据框的大小来说是不可行的。我宁愿用 numpy 以矢量化形式完成它。

[x[i] >= y2[i] for i in range(len(y2))]
# returns
# [array([False, False, False, False, False, False, False, False]),
# array([False, True, False, True, True, False]),
# ...
# array([ True, True]),
# array([ True, False, False]),
# array([False, False, False, False, False, False, False]),
# array([ True, True, True, True, True, True, True])]

最佳答案

获取底层数组数据,这样我们就可以将 y 作为 2D 数组,我们将其称为 Yx1D,将其称为 X。然后执行比较以利用广播,如下所示 -

Y = np.concatenate(df.y.values).reshape(-1,len(df.y[0]))
X = df.x.values
out = X >= Y

请注意,这会将 df.y 中的每个条目与 x 进行比较。

如果您打算将 x 中的每个条目与 df.y 中的每个条目进行比较,请将 X 扩展为 2D 然后比较:out = X[:,None] >= Y

关于python - 有效比较 pandas 系列 float 和 pandas 系列 numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51630446/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com