gpt4 book ai didi

python - ValueError : Not all divisions are known, 无法对齐 dask 数据帧上的分区错误

转载 作者:太空狗 更新时间:2023-10-30 00:18:53 26 4
gpt4 key购买 nike

我有以下带有以下列的 Pandas 数据框

user_id user_agent_id requests

所有列都包含整数。我不想对它们执行一些操作并使用 dask 数据帧运行它们。这就是我所做的。

user_profile = cache_records_dataframe[['user_id', 'user_agent_id', 'requests']] \
.groupby(['user_id', 'user_agent_id']) \
.size().to_frame(name='appearances') \
.reset_index() # I am not sure I can run this on dask dataframe

user_profile_ddf = df.from_pandas(user_profile, npartitions=4)
user_profile_ddf['percent'] = user_profile_ddf.groupby('user_id')['appearances'] \
.apply(lambda x: x / x.sum(), meta=float) #Percentage of appearance for each user group

但是我得到以下错误

raise ValueError("Not all divisions are known, can't align "
ValueError: Not all divisions are known, can't align partitions. Please use `set_index` to set the index.

我做错了什么吗?在纯 pandas 中它工作得很好但是对于很多行来说它变得很慢(尽管它们适合内存)所以我想并行计算。

最佳答案

在创建 dask dataframe 时添加 reset_index():

user_profile_ddf = df.from_pandas(user_profile, npartitions=4).reset_index()

关于python - ValueError : Not all divisions are known, 无法对齐 dask 数据帧上的分区错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45030651/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com