gpt4 book ai didi

apache-spark - 将 conf 文件添加到 Google Dataproc 中的类路径

转载 作者:行者123 更新时间:2023-12-05 05:08:29 25 4
gpt4 key购买 nike

我们正在使用 HOCON 配置在 Scala 中构建一个 Spark 应用程序,该配置称为 application.conf

如果我将 application.conf 添加到我的 jar 文件并在 Google Dataproc 上开始作业,它会正常工作:

gcloud dataproc jobs submit spark \
--cluster <clustername> \
--jar=gs://<bucketname>/<filename>.jar \
--region=<myregion> \
-- \
<some options>

我不想将 application.conf 与我的 jar 文件捆绑在一起,而是单独提供它,但我无法正常工作。

尝试了不同的东西,即

  1. 使用 --jars=gs://<bucketname>/application.conf 指定 application.conf(应该根据 this answer 工作)
  2. 使用 --files=gs://<bucketname>/application.conf
  3. 同1. + 2. 在集群Master实例的/tmp/中应用conf,然后用file:///tmp/application.conf指定本地文件
  4. 使用 extraClassPath(和执行程序)为 spark 定义 --properties=spark.driver.extraClassPath=gs://<bucketname>/application.conf

使用所有这些选项我得到一个错误,它无法在配置中找到 key :

Exception in thread "main" com.typesafe.config.ConfigException$Missing: system properties: No configuration setting found for key 'xyz'

此错误通常意味着 HOCON 配置中存在错误(键 xyz 未在 HOCON 中定义)或 application.conf 不在类路径中。由于在我的 jar 文件中使用完全相同的配置,因此我认为是后者。

是否有任何其他选项可以将 application.conf 放在类路径中?

最佳答案

如果 --jars 没有按照 this answer 中的建议工作, 你可以试试init action .首先将您的配置上传到 GCS,然后编写一个 init 操作将其下载到 VM,将其放入类路径中的文件夹或更新 spark-env.sh 以包含配置路径。

关于apache-spark - 将 conf 文件添加到 Google Dataproc 中的类路径,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58238269/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com