gpt4 book ai didi

python - 在 pandas 数据框中查找连续段

转载 作者:IT老高 更新时间:2023-10-28 20:36:30 26 4
gpt4 key购买 nike

我有一个 pandas.DataFrame,在连续的时间点进行测量。随着每次测量,被观察的系统在每个时间点都有不同的状态。因此,DataFrame 还包含一个列,其中包含每次测量时系统的状态。状态变化比测量间隔慢得多。因此,指示状态的列可能如下所示(索引:状态):

1:  3
2: 3
3: 3
4: 3
5: 4
6: 4
7: 4
8: 4
9: 1
10: 1
11: 1
12: 1
13: 1

有没有一种简单的方法可以检索每个连续相等状态段的索引。这意味着我想得到这样的东西:

[[1,2,3,4], [5,6,7,8], [9,10,11,12,13]]

结果也可能与普通列表不同。

目前我能想到的唯一解决方案是手动迭代行,找到段变化点并从这些变化点重建索引,但我希望有一个更简单的解决方案。

最佳答案

单线:

df.reset_index().groupby('A')['index'].apply(np.array)

代码示例:

In [1]: import numpy as np

In [2]: from pandas import *

In [3]: df = DataFrame([3]*4+[4]*4+[1]*4, columns=['A'])
In [4]: df
Out[4]:
A
0 3
1 3
2 3
3 3
4 4
5 4
6 4
7 4
8 1
9 1
10 1
11 1

In [5]: df.reset_index().groupby('A')['index'].apply(np.array)
Out[5]:
A
1 [8, 9, 10, 11]
3 [0, 1, 2, 3]
4 [4, 5, 6, 7]

您也可以直接从 groupby 对象中获取信息:

In [1]: grp = df.groupby('A')

In [2]: grp.indices
Out[2]:
{1L: array([ 8, 9, 10, 11], dtype=int64),
3L: array([0, 1, 2, 3], dtype=int64),
4L: array([4, 5, 6, 7], dtype=int64)}

In [3]: grp.indices[3]
Out[3]: array([0, 1, 2, 3], dtype=int64)

要解决 DSM 提到的情况,您可以执行以下操作:

In [1]: df['block'] = (df.A.shift(1) != df.A).astype(int).cumsum()

In [2]: df
Out[2]:
A block
0 3 1
1 3 1
2 3 1
3 3 1
4 4 2
5 4 2
6 4 2
7 4 2
8 1 3
9 1 3
10 1 3
11 1 3
12 3 4
13 3 4
14 3 4
15 3 4

现在按两列分组并应用 lambda 函数:

In [77]: df.reset_index().groupby(['A','block'])['index'].apply(np.array)
Out[77]:
A block
1 3 [8, 9, 10, 11]
3 1 [0, 1, 2, 3]
4 [12, 13, 14, 15]
4 2 [4, 5, 6, 7]

关于python - 在 pandas 数据框中查找连续段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14358567/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com