gpt4 book ai didi

java - 有什么办法可以让Cloud Dataflow像流一样输出吗?

转载 作者:行者123 更新时间:2023-11-29 04:43:01 24 4
gpt4 key购买 nike

我使用 Google Cloud Dataflow 处理绑定(bind)数据并输出到 BigQuery,我希望它可以处理一些东西并写入一些东西(比如流,而不是批处理),我有什么办法可以做到这一点吗?

目前,Dataflow 将等待工作进程不要所有数据,并写入 BigQuery,我尝试添加 FixedWindow 并使用 Log Timestamp 参数作为 window_timestamp,但它不起作用。

我想知道:

  1. 窗口化是处理这个问题的正确方法吗?
  2. BigQueryIO 真的是批量写入,还是只是没有显示在我的仪表板上(后台写入流?)
  3. 我需要什么方法吗?

我的源代码在这里:http://pastie.org/10907947

非常感谢!

最佳答案

您需要在 PipelineOptions 中将 streaming 属性设置为 true

参见 "streaming execution"获取更多信息。

此外,您需要使用可以生成/使用无限数据的源/接收器。 BigQuery 已经可以在两种模式下写入,但目前 TextIO 只能读取有界数据。但是绝对可以编写一个自定义的无限源来扫描目录中的新文件。

关于java - 有什么办法可以让Cloud Dataflow像流一样输出吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38392637/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com