maven - 如何在 GCP 中向 dataproc 集群添加 jar 依赖？-6ren

maven - 如何在 GCP 中向 dataproc 集群添加 jar 依赖？

转载作者：行者123 更新时间：2023-12-02 00:36:41

26

4

特别是，如何添加 spark-bigquery-connector 以便我可以从 dataproc 的 Jupyter 网络界面中查询数据？

关键链接:- https://github.com/GoogleCloudPlatform/spark-bigquery-connector

目标:能够运行类似的东西:

s = spark.read.bigquery("transactions")

s = (s
    .where("quantity" >= 0)
    .groupBy(f.col('date'))
    .agg({'sales_amt':'sum'})
     )

df = s.toPandas()

最佳答案

基本上有两种方法可以实现你想要的:

1 在创建集群时:您将必须创建一个初始化脚本(param --initialization-actions)来安装您的依赖项。 https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions

2 在创建集群时:您可以指定要在创建集群时使用的自定义镜像。 https://cloud.google.com/dataproc/docs/guides/dataproc-images

3 在作业运行时:您可以在使用 --jars 参数运行作业时传递额外的 jar 文件: https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/jobs/submit/pyspark#--jars

如果你有一个简单的 .jar 依赖项要运行，我推荐 (3)，比如 scoop.jar

如果您在运行作业之前要安装很多包，我建议 (1)。它给了你更多的控制权。

选项 (2) 绝对可以让您完全控制，但您必须自己维护镜像(应用补丁、升级等)，所以除非您真的需要它，否则我不推荐。

关于maven - 如何在 GCP 中向 dataproc 集群添加 jar 依赖？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58769692/

26

4

0

文章推荐： vb6 - 部署使用 QuickBooks SDK 创建的应用程序

文章推荐： Hibernate，使用 Criteria 或 HQL 返回自定义对象

文章推荐： sql - 为什么 INSTEAD OF UPDATE 触发器的 INSERTED 表是空的？

gcp - 如何将本地日志与 GCP 堆栈驱动程序集成
我正在评估 GCP 的 stackdriver 以跨多个微服务进行日志记录。其中一些服务部署在本地，其中一些在 AWS/GCP 上。我们的服务是基于 .NET 或 nodejs 的应用程序，我们投
google-cloud-platform - GCP 到 GCP 连接
我处于必须与 GCP 服务器建立 rabbitMQ 连接(我是消费者)的情况。我的代码也在 GCP 机器上。因此双方(一个是 MQ 生产者，另一个是我)决定创建一个本地网络连接，而不是进行外部 IP
google-cloud-platform - GCP 服务和 GCP 资源有何不同？
我是 GCP 的新手。“GCP 服务”和“GCP 资源”之间的差异让我感到困惑。我认为 GCP 资源是物理 Assets ，例如计算机、硬盘驱动器、虚拟资源、CPU 和 RAM 等。但是 GCP 服务
google-cloud-platform - GCP 多久更新一次 GCP 控制台上显示的结算费用？是实时的吗？
Google 云平台多久更新(刷新)GCP 控制台上显示的结算费用？有固定的延迟还是实时的？最佳答案计费费用每天更新，发票每月生成。也可以通过编程方式按需检查使用情况，按照说明-> https:/
google-cloud-platform - GCP dataproc 上的外部 Hive 表未从 GCP 存储桶中读取数据
我在 GCP 存储桶中有以下格式的数据: gs://bucket/my_table/data_date=2021-03-26/000 gs://bucket/my_table/data_date=20
google-cloud-platform - 如何使用 Terraform 将自定义 GCP 角色附加到 GCP 服务帐户
我使用 Terraform 在 GCP 中创建了一个服务帐户和一个自定义角色。如何将此自定义角色附加到服务帐户？我可以使用 GCP Console 来做到这一点，但这不是这里的需要，因为我必须使用 T
google-cloud-platform - GCP Kubeflow 和 GCP cloud composer 有什么区别？
我正在学习 GCP，遇到了 Kuberflow 和 Google Cloud Composer。据我了解，似乎两者都用于编排工作流，使用户能够在 GCP 中安排和监控管道。我能弄清楚的唯一区别是
google-cloud-platform - 我们在 gcp 中需要 ufw 吗？还是 gcp 的防火墙足够好？
我们在 gcp 中需要 ufw 吗？还是 gcp 提供的防火墙足够好？最佳答案根据您想要实现的目标，您可以选择在 VM 实例级别或 GCP 级别使用防火墙。出于安全原因，Google Cloud
google-cloud-platform - GCP - 如何在 GCP 中查看一个 VM 成本？在计费帐户中，我看到所有计算引擎的成本
我正在寻找一种方法来了解我为 GCP 虚拟机实例支付了多少费用。我有 4 个实例，当我转到计费帐户 -> 报告时，我通常会看到 Compute Engine 上特定项目的价格。我的实例有窗口和许可以
android - 泄露的 GCP API key - 您的应用包含暴露的 Google Cloud Platform (GCP) API key
我有一个已经发布到 Play 商店的 react-native 应用程序。在上次更新中，我遇到了这个错误，并且在描述中谷歌说 com.--.MainApplication.onCreate 我有一个由
java - spring-cloud-gcp-starter-bigquery 忽略属性文件中的 spring.cloud.gcp.credentials.location
我正在玩 spring gcp 项目。我的first example with GCP bucket工作正常并使用我在属性文件中指出的正确Google帐户: spring.cloud.gcp.cred
Python/GCP 健全性检查 : is this correct means of referencing image stored in GCP Storage in a POST call
场景:存储在 GCP 存储桶中的图像文件需要通过 POST 发送到第三方 REST 端点问题:这真的是最好的模式吗？有没有更有效、更简洁的方法？我们有移动应用将图像上传到 GCP 存储桶。当图像上
Java GCP bigquery simba jdbc connection timeout(Java GCP BigQuery Simba JDBC连接超时)
我正在尝试使用Simba JDBC从本地连接GCP BigQuery，但收到错误。之前我遇到了服务帐户角色权限问题，这些问题已通过为服务帐户添加必要的角色来解决。服务帐户需要角色权限，但我仍收到错误
gcp-ai-platform-notebook - 如何在 GCP AI Platform Notebook 上运行 Python 3.6
我的项目有一个依赖项，需要 python v3.6+。因此，它会在通过 pip 在 python 3 内核中安装时抛出错误，因为 AI Platform Notebooks 默认附带 v3.5。如何使
google-cloud-platform - intellij "Failed to enable GCP auth addon"中的 GCP Cloud 代码插件
尝试在本地运行“java cloud run hello word sample”Cloud Run:在本地运行我一直在努力 Enabling GCP auth addon... Failed to
google-cloud-platform - intellij "Failed to enable GCP auth addon"中的 GCP Cloud 代码插件
尝试在本地运行“java cloud run hello word sample”Cloud Run:在本地运行我一直在努力 Enabling GCP auth addon... Failed to
google-cloud-platform - 如何在 application.properties 文件中指定 GCP 凭据位置(用于在 GCP 中使用 Pub/Sub)？
通过在 application.properties 文件中指定文件位置来传递服务帐户 key 文件(从 GCP 控制台生成)似乎很简单。但是，我尝试了以下所有选项: 1. spring.cloud.
docker - GCP : Unable to pull docker images from our GCP private container registry on ubuntu/debian VM instances
我正在尝试从在 Google Cloud 上运行的常规 VM 实例(即 ubuntu-1904)上的私有(private) GCP 容器注册表中提取 docker 容器，但出现以下错误: user@t
google-cloud-platform - 在 mac zsh 终端上安装 apache-beam[gcp] 时出错 - “zsh: no matches found: apache-beam[gcp]”
我正在使用 zsh，并且我已经安装了 gcloud，以便通过我的 Mac 上的本地终端与 GCP 进行交互。我遇到了这个错误“zsh:找不到匹配项:apache-beam[gcp]”。但是，当我在 G
java - Spring boot 和 GCP - 使用 spring-cloud-gcp-starter-sql-postgresql 连接 Cloud SQL 实例尝试 SSL，但启动延迟
我有一个 Spring boot 项目，应该使用 spring-cloud-gcp-starter-sql-postgresql 连接 Cloud SQL 实例，以避免在项目中显式使用 IP . 到目

首页

博学

6Ren·AI

商城

maven - 如何在 GCP 中向 dataproc 集群添加 jar 依赖？