google-kubernetes-engine - 从 Dataproc 访问 Google Cloud Kubernetes 服务-6ren

google-kubernetes-engine - 从 Dataproc 访问 Google Cloud Kubernetes 服务

转载作者：行者123 更新时间：2023-12-04 11:36:20

24

4

我有一个收集模型的 Kubernetes 服务。构建这些模型的系统是 Python Dataproc 作业。

-> 我需要一种方法将 Dataproc 作业的结果推送到模型收集服务。

问题 :如何从 Dataproc 内部访问 Kubernetes 集群中的服务，我有哪些选择？

我需要入口 Controller 吗？是否可以从 Dataproc 内部访问 Kubernetes 网络(包括 DNS)？通过 gcloud 是否可以选择这样做？ (转发，但这在 Python 中似乎并不优雅)？

最佳答案

Dataproc 和 GKE 节点都是 GCE VM，默认可以访问同一个 VPC network 中的服务通过内部 IP、内部 DNS 或主机名。但不幸的是，Pod 运行在 VPC 网络之上的另一层虚拟网络中，VM 无法直接访问这些网络。

有多种选项可以让 Dataproc 节点(以及一般的 GCE 虚拟机)访问 GKE 服务，但我建议您将 GKE 集群和 Dataproc 集群放在同一个 VPC 网络中，然后创建一个类型为 LoadBalancer 的特殊 k8s 服务资源。和注释cloud.google.com/load-balancer-type: "Internal"对于您的 Pod，则同一 VPC 中的 VM 可以通过其内部 IP 访问该服务。看到这个 doc更多细节。

关于google-kubernetes-engine - 从 Dataproc 访问 Google Cloud Kubernetes 服务，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61318875/

24

4

0

文章推荐： python - 从 TFIDFVectorizer/CountVectorizer 减少词向量的维度

google-cloud-dataproc - 我应该把 jar 放在 dataproc 集群的什么地方，以便 gcloud dataproc jobs submit spark 可以使用它们？
我有一个初始化脚本，它从我们的本地工件存储库下载一个 .jar，并将其放入集群上每个节点上的 /usr/local/bin 中。我可以使用运行它 gcloud dataproc jobs submi
google-cloud-dataproc - Dataproc 集群的数据融合配置失败
我创建了一个简单的管道，它从 SQL Server 表读取并写入 BigQuery 表。然后我将其配置为使用 Spark 并部署和运行。它首先配置 dataproc 集群，我可以看到它相对快速地创建了
google-cloud-dataproc - Dataproc 虚拟机内存和本地磁盘使用指标
我正在尝试使用云指标监控 Dataproc 2.0 上的本地磁盘使用情况(百分比)。这对于监视 Spark 临时文件填满磁盘的情况很有用。默认情况下，Dataproc 似乎只发送本地磁盘性能指标、C
google-cloud-dataproc - 在 Dataproc 集群节点上设置环境变量
我希望在我的 dataproc 集群的每个节点上设置一个环境变量，以便它可用于将在该集群上运行的 pyspark 作业。做这个的最好方式是什么？我想知道是否有办法使用 Compute Engine
google-cloud-dataproc - 在 dataproc 工作流程中设置自动区域放置
我正在尝试在 Dataproc 工作流模板中设置自动区域放置我正在尝试在 Dataproc 工作流模板中设置自动区域放置，就像在 create a cluster 时所做的一样没有模板工作流谷歌云
google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？
我正在考虑运行一个托管 Hive 服务器的持久性 GCP Dataproc 集群，该集群将提供 HiveQL 接口(interface)，用于查询和更新存储在 Google Cloud Storage
google-cloud-dataproc - 我可以在集群模式下运行 dataproc 作业吗
刚开始熟悉 GCP dataproc。我注意到当我使用 gcloud dataproc jobs submit pyspark 时，作业是使用 spark.submit.deployMode=clie
google-cloud-dataproc - 如何调查失败的 dataproc 工作进程？
我正在运行 PySpark 作业，但我无法确定工作进程失败的原因。当我的作业正在运行时，我开始注意到作业输出中的堆栈跟踪，例如: 16/04/10 03:24:21 WARN org.apache.
google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？
我正在考虑运行一个托管 Hive 服务器的持久性 GCP Dataproc 集群，该集群将提供 HiveQL 接口(interface)，用于查询和更新存储在 Google Cloud Storage
google-cloud-dataproc - Google Dataproc Agent 在使用初始化脚本时报告失败
我正在尝试使用初始化脚本设置集群，但出现以下错误:[错误的 JSON:JSON 解析错误:意外的标识符“Google”]在日志文件夹中，初始化脚本输出日志不存在。这看起来很奇怪，因为它似乎在上周工作，
google-cloud-dataproc - 各个 dataproc Spark 日志在哪里？
dataproc spark 作业日志位于何处？我知道“日志记录”部分下有来自驱动程序的日志，但是执行节点呢？另外，Spark 正在执行的详细步骤记录在哪里(我知道我可以在 Application M
google-cloud-dataproc - 是否可以使用 Google Dataproc 上的初始化脚本将作业提交到集群？
我在 1 个集群上使用 Dataproc 和 1 个作业。我想在创建集群后立即开始我的工作。我发现实现此目的的最佳方法是使用如下初始化脚本提交作业。 function submit_job() {
google-cloud-dataproc - 将参数传递到 dataproc pyspark 作业
如何将参数传递到 dataproc pyspark 作业提交中调用的 python 脚本中？这是我一直在使用的命令: gcloud dataproc jobs submit pyspark --cl
google-cloud-dataproc - Dataproc 中的 Hive 授权
Dataproc 没有与 Apache Ranger 和 Apache Sentry 的内置集成。那么Hive中推荐的用户授权方式是什么？我是 Dataproc 的新手，您的回答真的很有帮助。最佳
google-cloud-dataproc - 使用新的 Dataproc 图像登录 MySQL 失败？
我使用 mysql 客户端从 dataproc 的主节点登录到 mysql 服务器，但现在失败了。使用以下命令 mysql -uroot -p 我现在看到以下错误消息。 mysql: [Warnin
google-cloud-dataproc - 如何在 Dataproc 上安装 Jupyter/iPython？
我想使用 Jupyter/iPython在 Cloud Dataproc .如何在创建新集群时自动安装和配置它？最佳答案 Cloud Dataproc 团队有一个 GitHub repository
google-cloud-dataproc - 如何组合和测试 google dataproc --initialization-actions
调试很慢。不清楚是否接受多个参数。文档字符串错误/不标准。例如我们可以这样做: --initialization-actions a b c 当它失败时，如何在几秒钟而不是几分钟内调试......即
google-cloud-dataproc - GCP Dataproc spark.jar.packages 问题下载依赖项
在创建我们的 Dataproc Spark 集群时，我们通过--properties spark:spark.jars.packages=mysql:mysql-connector-java:6.0.
google-cloud-platform - 如何在实例化 Dataproc 工作流模板时传递和访问 Dataproc Sparkjob 参数
我正在使用 Dataproc 工作流模板来运行 Sparkjob。我想将输入文件动态传递给 Sparkjob args，同时通过 Dataproc 工作流模板实例化它。我怎样才能实现它？最佳答案见
google-cloud-dataproc - 如何在 PySpark 作业中检索 Dataproc 的 jobId
我运行多个批处理作业，我想将 dataproc 中的 jobId 引用到保存的输出文件中。这将允许所有参数日志和与结果相关的输出。缺点仍然存在:随着 YARN 中的执行器消失，无法再获取单个执行器的

首页

博学

6Ren·AI

商城

google-kubernetes-engine - 从 Dataproc 访问 Google Cloud Kubernetes 服务