gpt4 book ai didi

scala - 如何确定在单个节点上运行的 Spark 的最佳设置?

转载 作者:行者123 更新时间:2023-12-03 18:00:34 24 4
gpt4 key购买 nike

我有 55 GB 数据需要处理。我在一台具有 32 个内核和 180GB RAM(无集群)的机器上运行 Spark-shell。由于它是一个单节点,Driver 和 Workers 驻留在同一个 JVM 进程中,默认情况下使用 514 MB。
我将 spark.driver.memory 设置为 170G

spark-shell  --driver-memory 170g
我正在执行映射操作,然后是 group_by,然后是 agg 并写入 Parquet 文件。它仍然停留在
enter image description here
无论如何,是否可以通过更改 spark.executor.memory 或更改使用的内核数而不是使用 Master[*] 来优化性能?如何确定给定任务和数据大小的最佳设置?我应该精确调整 --conf 文件中的哪些值?
简而言之,如何强制 Spark 以最佳方式使用所有可用资源?

最佳答案

如果您在单台计算机上运行,​​更改 spark.executor.memory 不会生效。您需要有一个实际的集群。您可以向集群添加更多节点以减少分区数量并加快处理速度。

关于scala - 如何确定在单个节点上运行的 Spark 的最佳设置?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64723098/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com