gpt4 book ai didi

apache-spark - YARN 集群上的 PySpark 分布式处理

转载 作者:行者123 更新时间:2023-12-04 03:51:09 24 4
gpt4 key购买 nike

我在 Cloudera CDH5.3 集群上运行 Spark,使用 YARN 作为资源管理器。我正在用 Python (PySpark) 开发 Spark 应用程序。

我可以提交作业并且它们成功运行,但是它们似乎永远不会在超过一台机器(我提交的本地机器)上运行。

我尝试了多种选项,例如将 --deploy-mode 设置为集群,将 --master 设置为 yarn-client 和 yarn-cluster,但它似乎从未在多个服务器上运行。

我可以通过传递诸如 --master local[8] 之类的东西让它在多个内核上运行,但这显然不会将处理分配到多个节点上。

我有一个非常简单的 Python 脚本处理来自 HDFS 的数据,如下所示:

import simplejson as json
from pyspark import SparkContext
sc = SparkContext("", "Joe Counter")

rrd = sc.textFile("hdfs:///tmp/twitter/json/data/")

data = rrd.map(lambda line: json.loads(line))

joes = data.filter(lambda tweet: "Joe" in tweet.get("text",""))

print joes.count()

我正在运行一个提交命令,如:
spark-submit atest.py --deploy-mode client --master yarn-client

我该怎么做才能确保作业在集群中并行运行?

最佳答案

你能交换命令的参数吗?
spark-submit --deploy-mode client --master yarn-client atest.py

如果您看到该命令的帮助文本:

Spark 提交

Usage: spark-submit [options] <app jar | python file>

关于apache-spark - YARN 集群上的 PySpark 分布式处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28229556/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com