gpt4 book ai didi

python - yarn 集群上的 Spark 创建一个 Spark 作业,其工作人员数量远小于 Spark 上下文中指定的数量

转载 作者:太空宇宙 更新时间:2023-11-03 19:41:21 25 4
gpt4 key购买 nike

yarn 集群上的 Spark 创建一个 Spark 作业,其工作人员数量比 Spark 上下文中指定的数量 (100) 小得多(仅 4 个工作人员):这是我创建 Spark 上下文和 session 的方法:

config_list = [
('spark.yarn.dist.archives','xxxxxxxxxxx'),
('spark.yarn.appMasterEnv.PYSPARK_PYTHON','xxxxxxxxx'),
('spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON','xxxxxxxxxxx'),
('spark.local.dir','xxxxxxxxxxxxxxxxxx'),
('spark.submit.deployMode','client'),
('spark.yarn.queue','somequeue'),
('spark.dynamicAllocation.minExecutors','100'),
('spark.dynamicAllocation.maxExecutors','100'),
('spark.executor.instances','100'),
('spark.executor.memory','40g'),
('spark.driver.memory','40g'),
('spark.yarn.executor.memoryOverhead','10g')
]

conf = pyspark.SparkConf().setAll(config_list)

spark = SparkSession.builder.master('yarn')\
.config(conf=conf)\
.appName('myapp')\
.getOrCreate()

sc = spark.sparkContext

希望有任何想法

最佳答案

如果您指定的最小工作节点大于等于集群中存在的实际工作节点/执行器,则 Spark session 将在作业运行时分配最大数量的可用空闲工作节点。

您还可以通过使用以下命令查看 session 中分配的执行程序数量来验证这一点:

sc._conf.get('spark.executor.instances')

希望你能理解

关于python - yarn 集群上的 Spark 创建一个 Spark 作业,其工作人员数量远小于 Spark 上下文中指定的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60405231/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com