apache-spark - 为什么 Spark(在 Google Dataproc 上)不使用所有 vcore？-6ren

apache-spark - 为什么 Spark(在 Google Dataproc 上)不使用所有 vcore？

转载作者：行者123 更新时间：2023-12-03 11:10:08

25

4

我正在 Google DataProc 集群上运行 spark 作业。但看起来 Spark 并没有使用所有 vcores在集群中可用，如下所示

基于其他一些问题，如 this和 this , 我已经设置集群使用 DominantResourceCalculator为资源分配同时考虑 vcpus 和内存

gcloud dataproc clusters create cluster_name --bucket="profiling-
job-default" \
--zone=europe-west1-c \
--master-boot-disk-size=500GB \
--worker-boot-disk-size=500GB \
--master-machine-type=n1-standard-16 \
--num-workers=10 \
--worker-machine-type=n1-standard-16 \
--initialization-actions gs://custom_init_gcp.sh \
--metadata MINICONDA_VARIANT=2 \
--properties=^--^yarn:yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator

但是当我使用自定义 Spark 标志提交我的工作时，看起来 YARN 不尊重这些自定义参数并且默认使用内存作为资源计算的标准

gcloud dataproc jobs submit pyspark --cluster cluster_name \
--properties spark.sql.broadcastTimeout=900,spark.network.timeout=800\
,yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator\
,spark.dynamicAllocation.enabled=true\
,spark.executor.instances=10\
,spark.executor.cores=14\
,spark.executor.memory=15g\
,spark.driver.memory=50g \
src/my_python_file.py

可以帮助某人弄清楚这里发生了什么吗？

最佳答案

我做错的是添加配置yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator至 YARN而不是 capacity-scheduler.xml (因为它应该是正确的)同时创建集群

其次，我改了yarn:yarn.scheduler.minimum-allocation-vcores最初设置为 1 .

我不确定这些更改中的任何一个还是这两个更改导致了解决方案(我将很快更新)。我的新集群创建如下所示:

gcloud dataproc clusters create cluster_name --bucket="profiling-
job-default" \
--zone=europe-west1-c \
--master-boot-disk-size=500GB \
--worker-boot-disk-size=500GB \
--master-machine-type=n1-standard-16 \
--num-workers=10 \
--worker-machine-type=n1-standard-16 \
--initialization-actions gs://custom_init_gcp.sh \
--metadata MINICONDA_VARIANT=2 \
--properties=^--^yarn:yarn.scheduler.minimum-allocation-vcores=4--capacity-scheduler:yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator

关于apache-spark - 为什么 Spark(在 Google Dataproc 上)不使用所有 vcore？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44529319/

25

4

0

文章推荐： .net - 在 F# 中定义静态类

文章推荐： windows - emacs:标准输入不是 tty

文章推荐： windows - 如何使用findstr从引号内提取文本

文章推荐： vectorization - AVX 指令 vxorpd 和 vpxor 之间的区别

google-cloud-dataproc - 我应该把 jar 放在 dataproc 集群的什么地方，以便 gcloud dataproc jobs submit spark 可以使用它们？
我有一个初始化脚本，它从我们的本地工件存储库下载一个 .jar，并将其放入集群上每个节点上的 /usr/local/bin 中。我可以使用运行它 gcloud dataproc jobs submi
google-cloud-dataproc - Dataproc 集群的数据融合配置失败
我创建了一个简单的管道，它从 SQL Server 表读取并写入 BigQuery 表。然后我将其配置为使用 Spark 并部署和运行。它首先配置 dataproc 集群，我可以看到它相对快速地创建了
google-cloud-dataproc - Dataproc 虚拟机内存和本地磁盘使用指标
我正在尝试使用云指标监控 Dataproc 2.0 上的本地磁盘使用情况(百分比)。这对于监视 Spark 临时文件填满磁盘的情况很有用。默认情况下，Dataproc 似乎只发送本地磁盘性能指标、C
google-cloud-dataproc - 在 Dataproc 集群节点上设置环境变量
我希望在我的 dataproc 集群的每个节点上设置一个环境变量，以便它可用于将在该集群上运行的 pyspark 作业。做这个的最好方式是什么？我想知道是否有办法使用 Compute Engine
google-cloud-dataproc - 在 dataproc 工作流程中设置自动区域放置
我正在尝试在 Dataproc 工作流模板中设置自动区域放置我正在尝试在 Dataproc 工作流模板中设置自动区域放置，就像在 create a cluster 时所做的一样没有模板工作流谷歌云
google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？
我正在考虑运行一个托管 Hive 服务器的持久性 GCP Dataproc 集群，该集群将提供 HiveQL 接口(interface)，用于查询和更新存储在 Google Cloud Storage
google-cloud-dataproc - 我可以在集群模式下运行 dataproc 作业吗
刚开始熟悉 GCP dataproc。我注意到当我使用 gcloud dataproc jobs submit pyspark 时，作业是使用 spark.submit.deployMode=clie
google-cloud-dataproc - 如何调查失败的 dataproc 工作进程？
我正在运行 PySpark 作业，但我无法确定工作进程失败的原因。当我的作业正在运行时，我开始注意到作业输出中的堆栈跟踪，例如: 16/04/10 03:24:21 WARN org.apache.
google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？
我正在考虑运行一个托管 Hive 服务器的持久性 GCP Dataproc 集群，该集群将提供 HiveQL 接口(interface)，用于查询和更新存储在 Google Cloud Storage
google-cloud-dataproc - Google Dataproc Agent 在使用初始化脚本时报告失败
我正在尝试使用初始化脚本设置集群，但出现以下错误:[错误的 JSON:JSON 解析错误:意外的标识符“Google”]在日志文件夹中，初始化脚本输出日志不存在。这看起来很奇怪，因为它似乎在上周工作，
google-cloud-dataproc - 各个 dataproc Spark 日志在哪里？
dataproc spark 作业日志位于何处？我知道“日志记录”部分下有来自驱动程序的日志，但是执行节点呢？另外，Spark 正在执行的详细步骤记录在哪里(我知道我可以在 Application M
google-cloud-dataproc - 是否可以使用 Google Dataproc 上的初始化脚本将作业提交到集群？
我在 1 个集群上使用 Dataproc 和 1 个作业。我想在创建集群后立即开始我的工作。我发现实现此目的的最佳方法是使用如下初始化脚本提交作业。 function submit_job() {
google-cloud-dataproc - 将参数传递到 dataproc pyspark 作业
如何将参数传递到 dataproc pyspark 作业提交中调用的 python 脚本中？这是我一直在使用的命令: gcloud dataproc jobs submit pyspark --cl
google-cloud-dataproc - Dataproc 中的 Hive 授权
Dataproc 没有与 Apache Ranger 和 Apache Sentry 的内置集成。那么Hive中推荐的用户授权方式是什么？我是 Dataproc 的新手，您的回答真的很有帮助。最佳
google-cloud-dataproc - 使用新的 Dataproc 图像登录 MySQL 失败？
我使用 mysql 客户端从 dataproc 的主节点登录到 mysql 服务器，但现在失败了。使用以下命令 mysql -uroot -p 我现在看到以下错误消息。 mysql: [Warnin
google-cloud-dataproc - 如何在 Dataproc 上安装 Jupyter/iPython？
我想使用 Jupyter/iPython在 Cloud Dataproc .如何在创建新集群时自动安装和配置它？最佳答案 Cloud Dataproc 团队有一个 GitHub repository
google-cloud-dataproc - 如何组合和测试 google dataproc --initialization-actions
调试很慢。不清楚是否接受多个参数。文档字符串错误/不标准。例如我们可以这样做: --initialization-actions a b c 当它失败时，如何在几秒钟而不是几分钟内调试......即
google-cloud-dataproc - GCP Dataproc spark.jar.packages 问题下载依赖项
在创建我们的 Dataproc Spark 集群时，我们通过--properties spark:spark.jars.packages=mysql:mysql-connector-java:6.0.
google-cloud-platform - 如何在实例化 Dataproc 工作流模板时传递和访问 Dataproc Sparkjob 参数
我正在使用 Dataproc 工作流模板来运行 Sparkjob。我想将输入文件动态传递给 Sparkjob args，同时通过 Dataproc 工作流模板实例化它。我怎样才能实现它？最佳答案见
google-cloud-dataproc - 如何在 PySpark 作业中检索 Dataproc 的 jobId
我运行多个批处理作业，我想将 dataproc 中的 jobId 引用到保存的输出文件中。这将允许所有参数日志和与结果相关的输出。缺点仍然存在:随着 YARN 中的执行器消失，无法再获取单个执行器的

首页

博学

6Ren·AI

商城

apache-spark - 为什么 Spark(在 Google Dataproc 上)不使用所有 vcore？