gpt4 book ai didi

google-cloud-platform - 如何使用 Data Fusion/Cloud Composer 在 GCP 上安排 Data Proc pyspark 作业

转载 作者:行者123 更新时间:2023-12-04 07:15:25 24 4
gpt4 key购买 nike

各位开发者好,
我最近开始学习 GCP 并且我正在研究一个 POC,它需要我创建一个能够调度用 pyspark 编写的 Dataproc 作业的管道。
目前,我在我的 dataproc 集群上创建了一个 Jupiter 笔记本,它从 GCS 读取数据并将其写入 BigQuery,它在 Jupyter 上运行良好,但我想在管道中使用该笔记本。
就像在 azure 上一样,我们可以使用 Azure 数据工厂来安排管道运行,请帮助我找出哪个 GCP 工具有助于实现类似的结果。
我的目标是安排多个 Dataproc 作业的运行。

最佳答案

是的,您可以通过创建 Dataproc 工作流并使用 Cloud Composer 对其进行调度来实现这一点,请参阅此 doc更多细节。
通过使用 Data Fusion,您将无法安排在 PySpark 中编写的 Dataproc 作业。 Data Fusion是 ETL/ELT 数据管道的无代码部署。根据您的要求,您可以直接创建和安排管道以从 GCS 中提取数据并将其加载到使用 Data Fusion 的 BigQuery。

关于google-cloud-platform - 如何使用 Data Fusion/Cloud Composer 在 GCP 上安排 Data Proc pyspark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68801557/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com