gpt4 book ai didi

python - 在 dask 中遍历 GroupBy 对象

转载 作者:太空狗 更新时间:2023-10-30 00:01:48 24 4
gpt4 key购买 nike

是否可以迭代 dask GroupBy 对象以访问底层数据帧?我试过:

import dask.dataframe as dd
import pandas as pd
pdf = pd.DataFrame({'A':[1,2,3,4,5], 'B':['1','1','a','a','a']})
ddf = dd.from_pandas(pdf, npartitions = 3)
groups = ddf.groupby('B')
for name, df in groups:
print(name)

但是,这会导致错误:KeyError: 'Column not found: 0'

更一般地说,除了 apply 方法之外,dask GroupBy 对象允许什么样的交互?

最佳答案

您可以使用 dask 遍历组来执行此操作,也许有更好的方法,但这对我有用。

import dask.dataframe as dd
import pandas as pd
pdf = pd.DataFrame({'A':[1, 2, 3, 4, 5], 'B':['1','1','a','a','a']})
ddf = dd.from_pandas(pdf, npartitions = 3)
groups = ddf.groupby('B')

for group in pdf['B'].unique():
print groups.get_group(group)

这会返回

dd.DataFrame<dataframe-groupby-get_group-e3ebb5d5a6a8001da9bb7653fface4c1, divisions=(0, 2, 4, 4)>
dd.DataFrame<dataframe-groupby-get_group-022502413b236592cf7d54b2dccf10a9, divisions=(0, 2, 4, 4)>

关于python - 在 dask 中遍历 GroupBy 对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39731098/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com