gpt4 book ai didi

python - 为什么 Apache-Spark - Python 本地速度比 pandas 慢?

转载 作者:行者123 更新时间:2023-12-02 07:03:48 26 4
gpt4 key购买 nike

这里是 Spark 新手。我最近开始使用以下命令在本地计算机上的两个内核上使用 Spark:

pyspark --master local[2]

我有一个 393Mb 的文本文件,其中有近一百万行。我想执行一些数据操作操作。我使用 PySpark 的内置数据帧函数来执行简单的操作,例如 groupBysummaxstddev.

但是,当我在 pandas 中对完全相同的数据集执行完全相同的操作时,pandas 似乎在延迟方面以巨大优势击败了 pyspark。

我想知道这可能是什么原因。我有几个想法。

  1. 内置函数的序列化/反序列化过程是否效率低下?如果是,有哪些替代方案?
  2. 数据集是否太小,以至于无法超出运行 Spark 的底层 JVM 的开销?

感谢您的浏览。非常感谢。

最佳答案

因为:

这样可以持续很长时间...

关于python - 为什么 Apache-Spark - Python 本地速度比 pandas 慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50803038/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com