gpt4 book ai didi

python - 通过将元素与前一行中的元素进行比较来过滤 numpy 数组而不循环

转载 作者:行者123 更新时间:2023-12-01 04:46:48 24 4
gpt4 key购买 nike

我对 Python 和 NumPy 非常陌生,花了几天时间寻找这个问题的答案。

考虑以下股票价格的二维数组,其中第 0 至 3 列是开盘价、最高价、最低价和收盘价,每行 (0-6) 是后续日期。

      O      H      L      C0 | 43.97  43.97  43.75  43.941 | 43.97  44.25  43.97  44.252 | 44.22  44.38  44.12  44.343 | 44.41  44.84  44.38  44.814 | 44.97  45.09  44.47  45.005 | 44.97  45.06  44.72  44.976 | 44.97  45.12  44.91  44.97

在此示例中,我将使用 O、H、L 或 C 来表示第 0-3 列,并使用 0、1 或 2 来表示 O、H 的行偏移(向后), L 或 C。

H2 表示前两行 H 列的值,C0 表示当前行 C 列的值。因此,在第 3 行中,H2 等于 44.25,C0 等于 44.81。

我想使用有效等同于逻辑语句 C0 > H2 或类似语句的条件从此类数组中获取行。最终我想包含像这样的多次比较以返回数组行的子集。

是否可以在不循环数组的情况下完成此操作?

最佳答案

一般来说,您想要做类似的事情(以“C0 > H2”为例):

values = data[2:][C[2:] > H[:-2]]

但是,您可以轻松地看到这是如何变得重复的。

因此,最简单的方法是创建与其余数据长度相同的“H2”等新序列。当您执行此操作时,您需要某种方法来指示哪些值无效或插入有效值。

有不止一种方法可以处理这个问题(例如不同的边界条件、屏蔽数组等)。例如,您可以决定使用最后一个有效值来扩展系列。

目前,因为您有 float 组,所以我们将 NaN 插入到缺失的位置。这样任何比较都将返回 False

在这种情况下,你会这样做:

H2 = np.pad(H[:-2], (2, 0), mode='constant', constant_values=(np.nan,))

或者更一般地说:

def shift(data, amount):
data = data[:-amount]
pad = (amount, 0)
return np.pad(data, pad, mode='constant', constant_values=(np.nan,))

这样你就可以直接比较事物。例如。 H[H > 移位(H, 2)]

<小时/>

此外,正如 DSM 提到的,请考虑使用 pandas 来实现此目的。一般来说,它会让你的生活变得更加轻松,等效的表达式是:

df[df.C > df.H.shift(2)]
<小时/>

详细说明

让我们稍微分解一下。

如果我们从系列 x = [0, 1, 2, 3, 4, 5] 开始,那么 x[:-2] 将为我们提供 [0,1,2,3]

import numpy as np

x = np.arange(6)
x2 = x[2:]

但是,如果我们想将它与原始长度相同的其他序列进行比较,就会遇到问题,因为 x 现在比其他序列短两项。

y = np.linspace(-2, -3, 6)

比较它们会引发 ValueError,因为它们的长度不同:

In [4]: x2 > y
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-22-eec160476995> in <module>()
----> 1 x2 > y

ValueError: operands could not be broadcast together with shapes (4) (6)

此外,我们不想将新“移位”x 的第一个值与原始序列的第一个值进行比较。我们想要将“移位”序列的第一项与原始序列的第三项进行比较。

为此,我们还需要对其他序列进行切片。例如。 y[2:]:

In [5]: x2 > y[2:]
Out[5]: array([ True, True, True, True], dtype=bool)

但是,这有点笨拙。我们需要知道移动了多少 x2 才能正确使用它。将新值插入到 x2 中要容易得多,这样我们就可以直接用它建立索引。

在我原来的示例中,我使用 np.pad 在数组开头插入 NaN

x2 = np.pad(x[:-2], (2, 0), mode='constant', constant_values=(np.nan,))  

在这种情况下,pad 的必要参数有点尴尬。如果您不想使用 np.pad,您也可以执行类似于以下的操作:

x2 = np.hstack([2 * [np.nan], x[:-2]])

这两种方法的一大优点是我们拥有相同长度的数组,并且与 np.nan 的任何比较都将是 False。

例如:

In [9]: x2
Out[9]: array([ nan, nan, 0., 1., 2., 3.])

In [10]: x2 > -np.inf
Out[10]: array([False, False, True, True, True, True], dtype=bool)

这使得直接与y进行比较变得容易:

In [11]: y
Out[11]: array([-2. , -2.2, -2.4, -2.6, -2.8, -3. ])

In [12]: x2 > y
Out[12]: array([False, False, True, True, True, True], dtype=bool)
<小时/>

示例

作为更完整的示例:

import numpy as np

def main():
data = np.array([[43.97, 43.97, 43.75, 43.94],
[43.97, 44.25, 43.97, 44.25],
[44.22, 44.38, 44.12, 44.34],
[44.41, 44.84, 44.38, 44.81],
[44.97, 45.09, 44.47, 45.00],
[44.97, 45.06, 44.72, 44.97],
[44.97, 45.12, 44.91, 44.97]])
O, H, L, C = data.T

values = data[C > shift(H, 2)]
print values

def shift(data, amount):
data = data[:-amount]
pad = (amount, 0)
return np.pad(data, pad, mode='constant', constant_values=(np.nan,))

main()

values 则为:

[[ 44.22  44.38  44.12  44.34]
[ 44.41 44.84 44.38 44.81]
[ 44.97 45.09 44.47 45. ]
[ 44.97 45.06 44.72 44.97]]
<小时/>

并且只是为了显示 pandas 版本:

import pandas as pd

df = pd.DataFrame([[43.97, 43.97, 43.75, 43.94],
[43.97, 44.25, 43.97, 44.25],
[44.22, 44.38, 44.12, 44.34],
[44.41, 44.84, 44.38, 44.81],
[44.97, 45.09, 44.47, 45.00],
[44.97, 45.06, 44.72, 44.97],
[44.97, 45.12, 44.91, 44.97]],
columns=['O', 'H', 'L', 'C'])

values = df[df.C > df.H.shift(2)]
print values

其产量:

       O      H      L      C
2 44.22 44.38 44.12 44.34
3 44.41 44.84 44.38 44.81
4 44.97 45.09 44.47 45.00
5 44.97 45.06 44.72 44.97

关于python - 通过将元素与前一行中的元素进行比较来过滤 numpy 数组而不循环,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29240662/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com