gpt4 book ai didi

google-cloud-storage - 将数据流管道的输出写入分区目标

转载 作者:行者123 更新时间:2023-12-02 17:50:58 24 4
gpt4 key购买 nike

我们有一个流事件源,每秒有数千个事件,这些事件都标有一个 ID,用于标识该事件属于我们数以万计的客户中的哪一个。我们希望使用此事件源来填充数据仓库(在流模式下),但是,我们的事件源不是持久性的,因此我们还希望将原始数据存档在 GCS 中,以便我们可以通过数据重播它仓库管道(如果我们做出需要的更改)。由于数据保留要求,我们保留的任何原始数据都需要由客户进行分区,以便我们可以轻松删除它。

在 Dataflow 中解决此问题的最简单方法是什么?目前,我们正在创建一个带有自定义接收器的数据流作业,该接收器将数据写入 GCS/BigQuery 上每个客户的文件,这是否明智?

最佳答案

要指定文件名和路径,请参见 TextIO documentation 。您将向输出编写器提供文件名/路径等。

对于多个输出文件的用例,您可以使用 Partition函数从单个源 PCollection 创建多个 PCollection

关于google-cloud-storage - 将数据流管道的输出写入分区目标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34801785/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com