python - 通过将元素与前一行中的元素进行比较来过滤 numpy 数组而不循环-6ren

python - 通过将元素与前一行中的元素进行比较来过滤 numpy 数组而不循环

转载作者：行者123 更新时间：2023-12-01 04:46:48

24

4

我对 Python 和 NumPy 非常陌生，花了几天时间寻找这个问题的答案。

考虑以下股票价格的二维数组，其中第 0 至 3 列是开盘价、最高价、最低价和收盘价，每行 (0-6) 是后续日期。

      O      H      L      C0 | 43.97  43.97  43.75  43.941 | 43.97  44.25  43.97  44.252 | 44.22  44.38  44.12  44.343 | 44.41  44.84  44.38  44.814 | 44.97  45.09  44.47  45.005 | 44.97  45.06  44.72  44.976 | 44.97  45.12  44.91  44.97

在此示例中，我将使用 O、H、L 或 C 来表示第 0-3 列，并使用 0、1 或 2 来表示 O、H 的行偏移(向后)， L 或 C。

H2 表示前两行 H 列的值，C0 表示当前行 C 列的值。因此，在第 3 行中，H2 等于 44.25，C0 等于 44.81。

我想使用有效等同于逻辑语句 C0 > H2 或类似语句的条件从此类数组中获取行。最终我想包含像这样的多次比较以返回数组行的子集。

是否可以在不循环数组的情况下完成此操作？

最佳答案

一般来说，您想要做类似的事情(以“C0 > H2”为例):

values = data[2:][C[2:] > H[:-2]]

但是，您可以轻松地看到这是如何变得重复的。

因此，最简单的方法是创建与其余数据长度相同的“H2”等新序列。当您执行此操作时，您需要某种方法来指示哪些值无效或插入有效值。

有不止一种方法可以处理这个问题(例如不同的边界条件、屏蔽数组等)。例如，您可以决定使用最后一个有效值来扩展系列。

目前，因为您有 float 组，所以我们将 NaN 插入到缺失的位置。这样任何比较都将返回 False。

在这种情况下，你会这样做:

H2 = np.pad(H[:-2], (2, 0), mode='constant', constant_values=(np.nan,))

或者更一般地说:

def shift(data, amount):
    data = data[:-amount]
    pad = (amount, 0)
    return np.pad(data, pad, mode='constant', constant_values=(np.nan,))

这样你就可以直接比较事物。例如。 H[H > 移位(H, 2)]

<小时/>

此外，正如 DSM 提到的，请考虑使用 pandas 来实现此目的。一般来说，它会让你的生活变得更加轻松，等效的表达式是:

df[df.C > df.H.shift(2)]

<小时/>

详细说明

让我们稍微分解一下。

如果我们从系列 x = [0, 1, 2, 3, 4, 5] 开始，那么 x[:-2] 将为我们提供 [0,1,2,3]

import numpy as np

x = np.arange(6)
x2 = x[2:]

但是，如果我们想将它与原始长度相同的其他序列进行比较，就会遇到问题，因为 x 现在比其他序列短两项。

y = np.linspace(-2, -3, 6)

比较它们会引发 ValueError，因为它们的长度不同:

In [4]: x2 > y
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-22-eec160476995> in <module>()
----> 1 x2 > y

ValueError: operands could not be broadcast together with shapes (4) (6)

此外，我们不想将新“移位”x 的第一个值与原始序列的第一个值进行比较。我们想要将“移位”序列的第一项与原始序列的第三项进行比较。

为此，我们还需要对其他序列进行切片。例如。 y[2:]:

In [5]: x2 > y[2:]
Out[5]: array([ True,  True,  True,  True], dtype=bool)

但是，这有点笨拙。我们需要知道移动了多少 x2 才能正确使用它。将新值插入到 x2 中要容易得多，这样我们就可以直接用它建立索引。

在我原来的示例中，我使用 np.pad 在数组开头插入 NaN。

x2 = np.pad(x[:-2], (2, 0), mode='constant', constant_values=(np.nan,))

在这种情况下，pad 的必要参数有点尴尬。如果您不想使用 np.pad，您也可以执行类似于以下的操作:

x2 = np.hstack([2 * [np.nan], x[:-2]])

这两种方法的一大优点是我们拥有相同长度的数组，并且与 np.nan 的任何比较都将是 False。

例如:

In [9]: x2
Out[9]: array([ nan,  nan,   0.,   1.,   2.,   3.])

In [10]: x2 > -np.inf
Out[10]: array([False, False,  True,  True,  True,  True], dtype=bool)

这使得直接与y进行比较变得容易:

In [11]: y
Out[11]: array([-2. , -2.2, -2.4, -2.6, -2.8, -3. ])

In [12]: x2 > y
Out[12]: array([False, False,  True,  True,  True,  True], dtype=bool)

<小时/>

示例

作为更完整的示例:

import numpy as np

def main():
    data = np.array([[43.97, 43.97, 43.75, 43.94],
                     [43.97, 44.25, 43.97, 44.25],
                     [44.22, 44.38, 44.12, 44.34],
                     [44.41, 44.84, 44.38, 44.81],
                     [44.97, 45.09, 44.47, 45.00],
                     [44.97, 45.06, 44.72, 44.97],
                     [44.97, 45.12, 44.91, 44.97]])
    O, H, L, C = data.T

    values = data[C > shift(H, 2)]
    print values

def shift(data, amount):
    data = data[:-amount]
    pad = (amount, 0)
    return np.pad(data, pad, mode='constant', constant_values=(np.nan,))

main()

values 则为:

[[ 44.22  44.38  44.12  44.34]
 [ 44.41  44.84  44.38  44.81]
 [ 44.97  45.09  44.47  45.  ]
 [ 44.97  45.06  44.72  44.97]]

<小时/>

并且只是为了显示 pandas 版本:

import pandas as pd

df = pd.DataFrame([[43.97, 43.97, 43.75, 43.94],
                   [43.97, 44.25, 43.97, 44.25],
                   [44.22, 44.38, 44.12, 44.34],
                   [44.41, 44.84, 44.38, 44.81],
                   [44.97, 45.09, 44.47, 45.00],
                   [44.97, 45.06, 44.72, 44.97],
                   [44.97, 45.12, 44.91, 44.97]],
                  columns=['O', 'H', 'L', 'C'])

values = df[df.C > df.H.shift(2)]
print values

其产量:

       O      H      L      C
2  44.22  44.38  44.12  44.34
3  44.41  44.84  44.38  44.81
4  44.97  45.09  44.47  45.00
5  44.97  45.06  44.72  44.97

关于python - 通过将元素与前一行中的元素进行比较来过滤 numpy 数组而不循环，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29240662/

24

4

0

文章推荐： jquery - 使用 jquery AJAX 和 FormData 上传文件

文章推荐： c# - 如何恢复 C# 服务器和 Java 客户端之间损坏的下载

文章推荐： java - 在 Java EE 环境中测试乐观锁

文章推荐： python - 匹配和追加

python - NetworkX Graph 对象的“同构”比较，而不是默认的 'address' 比较
我想使用 NetworkX Graph 对象作为 Python dict 中的键。但是，我不希望默认的比较行为(即通过对象的地址)。相反，我希望同构图是 dict 中相同元素的键。此行为是否已在某处
比较 float
这个问题已经有答案了: What is the most effective way for float and double comparison? (33 个回答) 已关闭 7 年前。在您认为我
C字符串与字符的输入、比较
我正在学习 C 编程，为了练习，我找到了一个需要解决的任务。这有点像一个游戏，有人选择一个单词，其他人猜测字母。我必须检查有多少给定的单词可能是所选单词的正确答案。输入: 3 3//数字 n 和 m
比较 If 语句中的字符
我两天前开始学习C，在做作业时遇到了问题。我们的目的是从字符数组中获取字符列表，并通过计算连续字符并将其替换为数字来缩短它。对“a4b5c5”说“aaaabbbbbccccc”。这是我到目前为止的代码
比较 if 语句中的指针值
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
JavaScript 比较
为什么我在 if 中的比较不起作用？答案应该是 8 但它返回 0。 function findMissing(missingArray){ var getArray = missing
JavaScript 比较
我想知道为什么以下 JavaScript 比较会给出不同的结果。 (1==true==1) true (2==true==2) false (0==false==0) false (0==false)
比较、组合和确定字符串的长度？
我想知道是否有人可以帮助我完成这个程序。编写一个接受两个字符串的函数。该函数应该将这两个字符串与字典顺序上排在第一位的字符串组合起来。两个字符串之间应该有一个空格。在一行上打印结果字符串。在一行上打印
JavaBeans 比较
有谁知道一个免费的开源库(实用程序类)，它允许您比较一个 Java bean 的两个实例并返回一个属性列表/数组，这两个实例的值不同？请发布一个小样本。干杯托马斯最佳答案 BeanCompara
Java - 比较
我是java新手。任何人都可以给出以下类声明的含义 public class ListNode, V> { K key; V value; ListNode next;
比较 C 中不同大小的矩阵乘法执行时间
我需要用 C 语言计算和比较 3 种不同大小(100 * 100、1000 * 1000 和 10000 * 10000)的 2 个矩阵相乘的执行时间。我编写了以下简单代码来为 1000 * 1000
聚合函数上的 SQL 比较
当我在 ACCESS 2007 中运行以下 SQL 时 Select Location, COUNT(ApartmentBuildings) AS TotalIBuildingsManaged Fro
multithreading - 互斥体与监视器——比较
根据我对互斥锁的了解——它们通常提供对共享资源的锁定功能。因此，如果一个新线程想要访问这个锁定的共享资源——它要么退出，要么必须不断轮询锁(并在等待锁时浪费处理器周期)。但是，监视器具有条件变量，它
Oracle NUMBER 比较
通常在编程中，不应该比较浮点数据类型是否相等，因为存储的值通常是近似值。由于两个非整数 Oracle NUMBER 值的存储方式不同(以 10 为基数)，是否可以可靠地比较它们是否相等？最佳答案
powershell - 没有隐式类型转换的身份运算符/比较
使用 PowerShell 时，我们偶尔会比较不同类型的对象。一个常见的场景是 $int -eq $bool (即其中 0 -eq $false 、 0 -ne $true 和任何非零值仅等于真，但不
比较 2 个字符串并保存结果
#include #define MAX 1000 void any(char s1[], char s2[], char s3[]); int main() { char string1[
c# - 比较.net中的日期
我想比较两个日期。从这两个日期中，我只使用 ToShortDateString() 获取日期组件，如下所示。现在的问题是当我比较两个日期时。它的 throw 错误—— "Operator >= c
iphone - 比较 NSNumber
用户输入一个数字( float 或整数)，并且它必须大于下限。这是从 UITextField 获取数字的代码: NSNumberFormatter * f = [[NSNumberFormatter
Javascript 子字符串验证/比较
我已经摆弄这段代码大约一个小时了，它让我难以置信。我认为解决方案相当简单，但我似乎无法弄清楚。无论如何，这里去。我制作了一个 javascript 函数来检查用户输入的字符，以便它只能接受 7 个字符
Scala 类和案例类 == 比较
我不太明白为什么当我们在不覆盖 equals 的情况下比较具有相同类属性的两个实例时方法，它将给出 false .但它会给出 true当我们比较一个案例类的两个实例时。例如 class A(val

首页

博学

6Ren·AI

商城

python - 通过将元素与前一行中的元素进行比较来过滤 numpy 数组而不循环

详细说明

示例