gpt4 book ai didi

python - 如何将数据框拆分为固定大小的组?

转载 作者:行者123 更新时间:2023-12-05 00:58:56 25 4
gpt4 key购买 nike

我正在处理大型数据框(>100 000 行和多列)。我需要对数据框进行排序,然后将其拆分为预定义大小的相等大小的组。如果有剩余的行(即,如果行数不能被组的大小整除),则需要从数据框中删除任何较小的组。

例如1, 2, 3, 4, 5, 6, 7, 8, 9, 10 组大小为 3应该分为[1, 2, 3], [4, 5, 6], [7, 8, 9]10 应该被丢弃。

我有一个解决方案,可以使用

创建一个新列
list(range(len(df.index) // group_size)) * group_size

然后使用 sort(),然后使用 group_by() 将行分组在一起。之后我可以 filter 删除任何小于 group_size 的组。

示例工作代码:

import pandas as pd

df = pd.DataFrame([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # data frame has been sorted before this point and the rows are in the correct order
group_size = 3

numbers = list(range(len(df.index) // group_size)) * group_size
numbers.sort()
numbers = pd.Series(numbers)
df = pd.concat([df, numbers], ignore_index=True, axis=1)
df.columns = ['value', 'group number']

groups = df.groupby('group number').filter(lambda x: len(x) == group_size)
print(groups)

这非常有效。不幸的是,我有很大的数据框,运行时间太长了。我的方法有替代方案吗?

最佳答案

这将为您提供数据帧列表:

lst = [df.iloc[i:i+group_size] for i in range(0,len(df)-group_size+1,group_size)]

它只是使用内置索引,所以应该很快。如果它太小,停止索引的烦躁会丢弃最后一帧 - 您也可以将其分解为

lst = [df.iloc[i:i+group_size] for i in range(0,len(df),group_size)]
if len(lst[-1]) < group_size:
lst.pop()

关于python - 如何将数据框拆分为固定大小的组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55579335/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com