gpt4 book ai didi

python - 并行化 pandas 函数 pd.concat

转载 作者:太空宇宙 更新时间:2023-11-03 19:56:12 25 4
gpt4 key购买 nike

我有一个名为 df_list 的巨大数据框列表(包含一些不同的列和一些常见的列),我希望将其合并到一个大数据框中。我尝试过以下方法:

all_dfs = pd.concat(df_list)

尽管这在单核上花费太多时间。 48小时后我就把剧本杀掉了。您将如何并行化此过程以使用我的所有核心或重写代码以使其更快

最佳答案

pandas - 与并行处理无关。

最简单的方法是使用第三方工具来处理庞大的数据帧。您可以在不同的节点上运行数据集的计算/处理。

  • 您可以查看dask (与pandas界面类似)。

  • 您可以查看pyspark .

您也可以使用swifter在多个核心上运行处理。

可能还有一些其他工具...换句话说,在您的情况下,最好在集群中运行计算。

希望这有帮助。

关于python - 并行化 pandas 函数 pd.concat,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59518628/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com