gpt4 book ai didi

python - Dask 数据框没有属性分类

转载 作者:行者123 更新时间:2023-12-01 02:57:22 25 4
gpt4 key购买 nike

我正在尝试将带有分类列的 Dask 数据框存储到每个 this tutorial*.h5 文件中- 1:23:25 - 1:23:45。

这是我对 store 函数的调用:

stored = store(ddf,'/home/HdPC/Analyzed.h5', ['Tag'])

函数store是:

@delayed
def store(ddf,fp,c):
ddf.categorize(columns=c).to_hdf(fp, '/data2')

并使用categorize .

ddfstored 的类型为:

print(type(ddf), type(stored))
>>> (<class 'dask.dataframe.core.DataFrame'>, <class 'dask.delayed.Delayed'>)

当我运行 compute(*[stored])stored.compute() 时,我得到:

dask.async.AttributeError: 'DataFrame' object has no attribute 'categorize'

有没有办法使用store函数实现Tag列的这种分类?或者我应该使用不同的方法来存储具有分类的 Dask 数据框?

最佳答案

我建议您在没有延迟调用的情况下尝试数据帧操作 - daak-dataframes 内部已经是惰性计算图。我相信通过调用计算,您实际上是将生成的 pandas 数据帧传递给您的函数,这就是您收到错误的原因。

在您的情况下:只需删除@delayed(记住 to_hdf 是一个阻塞调用)。

关于python - Dask 数据框没有属性分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44089458/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com