gpt4 book ai didi

maven - 如何在 GCP 中向 dataproc 集群添加 jar 依赖?

转载 作者:行者123 更新时间:2023-12-02 00:36:41 26 4
gpt4 key购买 nike

特别是,如何添加 spark-bigquery-connector 以便我可以从 dataproc 的 Jupyter 网络界面中查询数据?

关键链接:- https://github.com/GoogleCloudPlatform/spark-bigquery-connector

目标:能够运行类似的东西:

s = spark.read.bigquery("transactions")

s = (s
.where("quantity" >= 0)
.groupBy(f.col('date'))
.agg({'sales_amt':'sum'})
)

df = s.toPandas()

最佳答案

基本上有两种方法可以实现你想要的:

1 在创建集群时:您将必须创建一个初始化脚本(param --initialization-actions)来安装您的依赖项。 https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions

2 在创建集群时:您可以指定要在创建集群时使用的自定义镜像。 https://cloud.google.com/dataproc/docs/guides/dataproc-images

3 在作业运行时:您可以在使用 --jars 参数运行作业时传递额外的 jar 文件: https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/jobs/submit/pyspark#--jars

如果你有一个简单的 .jar 依赖项要运行,我推荐 (3),比如 scoop.jar

如果您在运行作业之前要安装很多包,我建议 (1)。它给了你更多的控制权。

选项 (2) 绝对可以让您完全控制,但您必须自己维护镜像(应用补丁、升级等),所以除非您真的需要它,否则我不推荐。

关于maven - 如何在 GCP 中向 dataproc 集群添加 jar 依赖?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58769692/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com