gpt4 book ai didi

java - 通过 Google Cloud Dataflow 编写服务

转载 作者:行者123 更新时间:2023-12-01 10:19:25 25 4
gpt4 key购买 nike

我需要编写一个服务来连接 Google Cloud Dataflow (GCD)。我的想法是:

  1. 服务接收请求(包含 SQL 行、JSON、纯文本等)。
  2. 服务将数据发送到 GCD 上的一个(或多个)管道(根据请求类型)。
  3. 使用的管道对数据执行转换。
  4. GCD 管道在 Google Cloud Storage (GCS) 和其他 Google Cloud 服务(例如 BigQuery)上进行写入。

在我的研究中,我发现 Google 的 API (Python) 可以与 GCD 进行通信。这部分还可以,只是有些需要阅读。问题是:如何部署管道?

我完成了入门教程:创建了一个maven项目,编译并执行了WordCount代码,并用它来编写我自己的逻辑。然而,每次我需要运行作业时,我都必须从终端调用 mvn [compile] exec:java foo1.foo2...fooN.BarClass 。然后将代码上传到云端并执行。

如何“将代码放在那里”,部署为服务,然后将我自己的服务连接到它?每次使用都需要上传Java代码吗?作为 JAR 文件部署在某处并以某种方式调用它?我可以重新运行已完成的作业吗?或者管道仅作为从属执行?

文档对此并不清楚。

提前致谢。

最佳答案

您可以使用Cloud Pub/Sub作为 streaming Dataflow 的任意数据流摄取机制,然后它将“永远在线”,并且能够发布到另一个服务或另一个 Cloud Pub/Sub 主题。

这为您的服务提供了一层解耦,因为您可以随时将 Dataflow 替换为另一个处理层,因为您的所有发送者和接收者只需要了解 Pub/Sub 或其他传输 API。

关于java - 通过 Google Cloud Dataflow 编写服务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35709982/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com