gpt4 book ai didi

python - 根据特定列中的负值或 np.nan 值将数据帧拆分为 block

转载 作者:行者123 更新时间:2023-12-01 23:25:52 24 4
gpt4 key购买 nike

假设我有以下数据框:

import pandas as pd
import numpy as np

df = pd.DataFrame({'dif_seq': [np.nan, 1, 1, 1, 1, -23, 1, 1, 1, -4, 1, 1], 'data': range(12)})

df
Out[75]:
dif_seq data
0 NaN 0
1 1.0 1
2 1.0 2
3 1.0 3
4 1.0 4
5 -23.0 5
6 1.0 6
7 1.0 7
8 1.0 8
9 -4.0 9
10 1.0 10
11 1.0 11

我想根据 df['dif_seq'] 中的值将 df 拆分为数据帧列表,如下所示(所有负值或 np.nan 值表示新 df 的开始):

    dif_seq  data
0 NaN 0
1 1.0 1
2 1.0 2
3 1.0 3
4 1.0 4

dif_seq data
5 -23.0 5
6 1.0 6
7 1.0 7
8 1.0 8

dif_seq data
9 -4.0 9
10 1.0 10
11 1.0 11

解决此问题的最佳方法是什么?我有一个非常大的数据集的类似问题。因此,尽管这是一个小例子,但最快的路线是什么?

最佳答案

I would like to split df into a list of dataframes

您可以尝试使用条件累积和和 np.split:

c = df['dif_seq'].lt(0)|df['dif_seq'].isna()
#c= ~df.dif_seq.ge(0) : courtesy @MustafaAydın
s = c.cumsum()
l = np.split(df,np.where(np.diff(s)>0)[0]+1)
#or for a dictionary: dict(iter(df.groupby(s)))

>>l

[ dif_seq data
0 NaN 0
1 1.0 1
2 1.0 2
3 1.0 3
4 1.0 4,
dif_seq data
5 -23.0 5
6 1.0 6
7 1.0 7
8 1.0 8,
dif_seq data
9 -4.0 9
10 1.0 10
11 1.0 11]

关于python - 根据特定列中的负值或 np.nan 值将数据帧拆分为 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67235079/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com