gpt4 book ai didi

hadoop - Spark程序在群集上运行非常慢

转载 作者:行者123 更新时间:2023-12-02 22:06:45 24 4
gpt4 key购买 nike

我正在尝试在具有2个节点和1个主节点(均具有16 Gb RAM)的群集中运行 PySpark 。我已经用下面的命令运行了。

spark-submit --master yarn --deploy-mode cluster --name "Pyspark" --num-executors 40 --executor-memory 2g CD.py



但是我的代码运行速度非常慢,解析8.2 GB的数据大约需要1个小时。
然后,我尝试更改 YARN 中的配置。我更改了以下属性。
yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.minimum-allocation-mb = 2 GiB

yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.maximum-allocation-mb = 2 GiB

完成这些更改后,我的 Spark 仍然运行非常缓慢,并且花费了超过1个小时来解析8.2 GB的文件。

最佳答案

您可以尝试以下配置吗

spark.executor.memory 5克

spark.executor.cores 5

spark.executor.instances 3

spark.driver.cores 2

关于hadoop - Spark程序在群集上运行非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46192330/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com