gpt4 book ai didi

pandas - 将大型数据集与 dask 合并

转载 作者:行者123 更新时间:2023-12-05 07:08:30 25 4
gpt4 key购买 nike

我有两个数据集,一个大约 45GB,包含 1 年的每日交易,第二个是 3.6GB,包含客户 ID 和详细信息。我想将两者合并到一个公共(public)列上以创建一个数据集,该数据集超出了服务器的内存,因为每个客户可能有多个交易。我正在使用具有 16 个内核和 64GB RAM 的 Windows 服务器,据我所知,这种类型的工作规范非常有限。

方法论

将大数据集读入 dask 数据帧并将索引设置为客户 ID。读取 pandas 中的 3.6GB 数据集并将索引设置为客户 ID。使用参数 memory_limit='50GB' 和 processes=False 启动本地集群。将 dask 数据帧与索引上的 pandas 数据帧合并(left_index=True,right_index=True)。

此方法创建了 75000 个任务,最终会耗尽内存。

我正在努力实现的目标可行吗?我是否为此选择了错误的工具?我的想法已经用完了,我迫切需要一些帮助。

最佳答案

是的,你想做的是可能的,但你可能需要稍微调整一下分区大小。如果您的数据中有很多重复项,那么 Pandas 可能会突然产生非常大的值。您可以通过...解决此问题

  1. 使用较小的分区(可能)
  2. 减少并行度(也许尝试 dask.config.set(scheduler="single-threaded") 看看是否有帮助

关于pandas - 将大型数据集与 dask 合并,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61858102/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com