gpt4 book ai didi

apache-spark - 在启动 Google DataProc 集群以与 Jupyter 笔记本一起使用时,如何包含其他 jars?

转载 作者:行者123 更新时间:2023-12-04 05:04:11 24 4
gpt4 key购买 nike

我正在按照使用初始化脚本启动 Google DataProc 集群的说明来启动 jupyter 笔记本。

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

如何在 Jupyter 笔记本(尤其是 pyspark)的结果 SparkContext 中包含额外的 JAR 文件(例如,spark-xml)?

最佳答案

答案略微取决于您要加载的 jar 。例如,您可以在创建集群时将 spark-xml 与以下内容结合使用:

$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1

要指定多个 Maven 坐标,您需要将 gcloud 字典分隔符从 ',' 交换为其他字符(因为我们需要使用它来分隔要安装的包):
$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3

可以在 gcloud 中找到有关如何更改转义字符的详细信息:
$ gcloud help topic escaping

关于apache-spark - 在启动 Google DataProc 集群以与 Jupyter 笔记本一起使用时,如何包含其他 jars?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46104668/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com