gpt4 book ai didi

apache-spark - 为什么 spark 任务在单个节点上运行?

转载 作者:行者123 更新时间:2023-12-01 08:29:18 26 4
gpt4 key购买 nike

我已经安装了一个 Spark 集群。它有 4 个节点,但是当我在集群上运行 SparkPi 示例时,只有一个节点运行。我该如何解决?

最佳答案

一种可能性是,您在本地模式下运行示例。也就是说,该示例根本不使用集群。验证这一点很容易:停止 Spark master 并查看示例是否仍然有效。

http://spark.apache.org/docs/latest/submitting-applications.html描述如何运行示例。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local \
/path/to/examples.jar \
100

您需要将 local 替换为 spark://spark-master.example.com:7077 之类的内容。

另一种解释可能是只有一个 worker 连接出于某种原因。或者,ma​​ster 出于某种原因只分配有限的资源给应用程序。您可以在主 UI 上检查这两项。 (http://spark-master.example.com:8080/)

最后,可能是你的数据被分割成太少的分区,它们都被一台机器拾取。在上面的例子中,100 是分区的数量。如果省略它,则默认为 2。如果您的工作人员有 2 个或更多核心,则其中一个很可能会同时占用两个分区。当您查看应用程序 UI 上执行的阶段时,您可以看到是否是这种情况。 (http://localhost:4040/stages) 解决办法是增加分区数。

关于apache-spark - 为什么 spark 任务在单个节点上运行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24167194/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com