gpt4 book ai didi

python - 按数据帧中的行计算非零值的非重叠运行

转载 作者:太空狗 更新时间:2023-10-30 02:40:38 25 4
gpt4 key购买 nike

假设我有以下 Pandas DataFrame:

id | a1 | a2 | a3 | a4 
1 | 3 | 0 | 10 | 25
2 | 0 | 0 | 31 | 15
3 | 20 | 11 | 6 | 5
4 | 0 | 3 | 1 | 7

我想要的是针对 n 的各种值计算每行中 n 连续非零值的非重叠运行次数。所需的输出将是:

id | a1 | a2 | a3 | a4 | 2s | 3s | 4s
1 | 3 | 0 | 10 | 25 | 1 | 0 | 0
2 | 0 | 0 | 31 | 15 | 1 | 0 | 0
3 | 20 | 11 | 6 | 5 | 2 | 1 | 1
4 | 0 | 3 | 1 | 7 | 1 | 1 | 0

例如2s 列中的每个值显示该行中长度为 2 的非重叠运行数,3s 列中的每个值显示相应的长度为 3 的运行数, 等等。

我想知道是否有任何 Pandas 或 Numpy 方法可以解决这个问题?

最佳答案

这是 2D convolution 的一种方法解决一行中任意数量的元素 -

from scipy.signal import convolve2d as conv2

n = 6
v = np.vstack([(conv2(df.values!=0,[[1]*I])==I).sum(1) for I in range(2,n+1)]).T
df_v = pd.DataFrame(v, columns = [[str(i)+'s' for i in range(2,n+1)]])
df_out = pd.concat([df, df_v],1)

基本思路

基本思想是我们可以使用滑动窗口对每一行中存在的非零值求和。假设我们正在查看连续出现了多少个三个非零值。因此,我们将使用大小为 3 的滑动窗口并获得滑动总和。滑动窗口的所有三个元素都出现为非零的所有这些位置将产生 3 的总和。因此,我们寻找匹配 3 的总和并计算它们。就是这样!我们遍历所有窗口大小以捕获所有 2s3s 等。

这是一个计算数组 3s 的示例 -

In [326]: a
Out[326]:
array([[0, 2, 1, 2, 1, 2],
[2, 2, 2, 0, 0, 0],
[2, 2, 1, 1, 1, 1],
[1, 2, 1, 2, 0, 1]])

In [327]: a!=0
Out[327]:
array([[False, True, True, True, True, True],
[ True, True, True, False, False, False],
[ True, True, True, True, True, True],
[ True, True, True, True, False, True]], dtype=bool)

In [329]: conv2(a!=0,[[1]*3])
Out[329]:
array([[0, 1, 2, 3, 3, 3, 2, 1],
[1, 2, 3, 2, 1, 0, 0, 0],
[1, 2, 3, 3, 3, 3, 2, 1],
[1, 2, 3, 3, 2, 2, 1, 1]])

In [330]: conv2(a!=0,[[1]*3])==3
Out[330]:
array([[False, False, False, True, True, True, False, False],
[False, False, True, False, False, False, False, False],
[False, False, True, True, True, True, False, False],
[False, False, True, True, False, False, False, False]], dtype=bool)

In [331]: (conv2(a!=0,[[1]*3])==3).sum(1)
Out[331]: array([3, 1, 4, 2])

sample 运行-

In [158]: df_out
Out[158]:
a1 a2 a3 a4 a5 a6 2s 3s 4s 5s 6s
0 1 2 1 0 0 2 2 1 0 0 0
1 1 1 2 1 0 1 3 2 1 0 0
2 1 1 0 0 1 1 2 0 0 0 0
3 2 2 1 0 2 2 3 1 0 0 0

请注意,如果第一列是'id',那么我们需要跳过它。因此,我们需要在建议的解决方案代码中使用 df.values[:,1:] 而不是 df.values

关于python - 按数据帧中的行计算非零值的非重叠运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41919229/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com