gpt4 book ai didi

google-cloud-platform - Dataproc 集群属性(核心、内存和内存开销)设置

转载 作者:行者123 更新时间:2023-12-02 02:48:55 24 4
gpt4 key购买 nike

我是 dataproc 和 PySpark 的新手。我创建了一个具有以下配置的集群:

gcloud beta dataproc clusters create $CLUSTER_NAME  \
--zone $ZONE \
--region $REGION \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--worker-machine-type n1-standard-4 \
--worker-boot-disk-size 500 \
--num-workers 3 \
--bucket $GCS_BUCKET \
--image-version 1.4-ubuntu18 \
--optional-components=ANACONDA,JUPYTER \
--subnet=default \
--enable-component-gateway \
--scopes 'https://www.googleapis.com/auth/cloud-platform' \
--properties ${PROPERTIES}

这里是我当前使用的属性设置,基于我在互联网上获得的信息。

PROPERTIES="\
spark:spark.executor.cores=2,\
spark:spark.executor.memory=8g,\
spark:spark.executor.memoryOverhead=2g,\
spark:spark.driver.memory=6g,\
spark:spark.driver.maxResultSize=6g,\
spark:spark.kryoserializer.buffer=128m,\
spark:spark.kryoserializer.buffer.max=1024m,\
spark:spark.serializer=org.apache.spark.serializer.KryoSerializer,\
spark:spark.default.parallelism=512,\
spark:spark.rdd.compress=true,\
spark:spark.network.timeout=10000000,\
spark:spark.executor.heartbeatInterval=10000000,\
spark:spark.rpc.message.maxSize=256,\
spark:spark.io.compression.codec=snappy,\
spark:spark.shuffle.service.enabled=true,\
spark:spark.sql.shuffle.partitions=256,\
spark:spark.sql.files.ignoreCorruptFiles=true,\
yarn:yarn.nodemanager.resource.cpu-vcores=8,\
yarn:yarn.scheduler.minimum-allocation-vcores=2,\
yarn:yarn.scheduler.maximum-allocation-vcores=4,\
yarn:yarn.nodemanager.vmem-check-enabled=false,\
capacity-scheduler:yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
"

我想了解这是否是我的集群的正确属性设置,如果不是,我如何为这些属性分配最理想的值,特别是核心、内存和内存开销,以便以最有效的方式运行我的 pyspark 作业也因为我面临着此错误:容器以非零退出代码 143 退出。被外部信号杀死

最佳答案

这里了解您正在使用的机器的配置和限制以及如何将内存分配给 Spark 组件非常重要。

n1-standard-4 是一台具有 15GB RAM 的 4 核机器。默认情况下,机器 80% 的内存分配给 YARN 节点管理器。由于您没有明确设置它,在本例中它将是 12GB。

Spark Executor 和 Driver 运行在 YARN 分配的容器中。

分配给 Spark 执行器的总内存是spark.executor.memory 和spark.executor.memoryOverhead 的总和,在本例中为10GB。我建议您为执行器分配比内存开销更多的内存,因为前者用于运行任务,后者用于特殊目的。默认情况下,spark.executor.memoryOverhead 为 max(384MB, 0.10 * executor.memory)。

在这种情况下,每台机器只能有一个执行器(每个执行器 10GB,机器容量 15GB)。由于这种配置,您没有充分利用核心,因为每个执行器仅使用 2 个核心。建议每台机器为其他操作系统进程保留 1 个核心,因此将 executor.cores 更改为 3 可能会有所帮助。

一般来说,建议使用默认内存配置,除非您非常了解要修改的所有属性。根据默认设置下应用程序的性能,您可以调整其他属性。还可以考虑根据应用程序的内存要求更改为不同的机器类型。

引用文献-1.https://mapr.com/blog/resource-allocation-configuration-spark-yarn/2.https://sujithjay.com/spark/with-yarn

关于google-cloud-platform - Dataproc 集群属性(核心、内存和内存开销)设置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62386571/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com