google-cloud-dataflow - 您如何通过发布/订阅将旧数据重播到数据流中并保持正确的事件时间逻辑？-6ren

google-cloud-dataflow - 您如何通过发布/订阅将旧数据重播到数据流中并保持正确的事件时间逻辑？

转载作者：行者123 更新时间：2023-12-05 05:22:31

24

4

我们正在尝试使用数据流的处理时间独立性来启动一个新的流作业并通过 Pub/Sub 将我们的所有数据重播到其中，但遇到了以下问题:

管道的第一阶段是对事务 ID 进行分组， session 窗口为 10 秒，丢弃已触发的 Pane ，并且不允许迟到。因此，如果我们不指定重播发布/订阅主题的 timestampLabel，那么当我们重播到发布/订阅时，所有事件时间戳都是相同的，并且 groupby 会尝试将我们所有的存档数据一直分组到事务 ID 中。不好。

如果我们将 timestampLabel 设置为存档数据中的实际事件时间戳，并在发布/订阅主题中一次重播 1d，那么它适用于第一天的事件，但一旦这些事件结束耗尽重放发布/订阅的数据水印以某种方式向前跳到当前时间，并且所有后续重放天数都被丢弃为延迟数据。我真的不明白为什么会这样，因为它似乎违反了数据流逻辑独立于处理时间的想法。

如果我们将 timestampLabel 设置为存档数据中的实际事件时间戳，并将其全部重播到 pub/sub 主题中，然后启动流作业来使用它，数据水印似乎永远不会前进，并且groupby 似乎什么也没有出来。我也不太明白这是怎么回事。

最佳答案

您的方法 #2 和 #3 存在不同的问题:

方法#3(写入所有数据，然后开始消费):由于数据被乱序写入 pubsub 主题，水印在所有(或大部分)数据被消费之前确实无法推进 - 因为水印是一个软性保证“您收到的其他项目不太可能比这晚有事件时间”，但由于乱序发布，发布时间和事件时间之间没有任何对应关系。因此，您的管道实际上会卡住，直到它处理完所有这些数据。

方法 #2:从技术上讲，它在每一天都会遇到同样的问题，但我想 1 天内的数据量不会那么大，所以管道能够处理它。然而，在那之后，pubsub channel 会长时间保持空状态，在这种情况下，PubsubIO 的当前实现会将水印提前到实时，这就是为什么进一步延迟数据的原因。 The documentation对此进行更多解释。

一般来说，快速 catch 大量积压，例如通过使用历史数据来“播种”管道，然后继续流入新数据，这是一个重要的用例，但我们目前还没有很好地支持它。

同时我有一些建议给你:

(更好)使用方法 #2 的变体，但尝试根据流管道对其进行计时，以便 pubsub channel 不会保持为空。
使用方法 3，但使用更多的工作器和每个工作器更多的磁盘(您当前的工作似乎是使用最多 8 个工作器的自动缩放 - 尝试更大的东西，比如 100 个？它会在 catch 之后缩小规模)

关于google-cloud-dataflow - 您如何通过发布/订阅将旧数据重播到数据流中并保持正确的事件时间逻辑？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40387350/

24

4

0

文章推荐： AngularJS根据http请求的结果设置常量

文章推荐： git - 是否可以将 Git 与 ABAP 存储库一起使用？

文章推荐： string - 原始字符串是否算作其自身的子字符串？

文章推荐： r - R 中具有 95% 置信区间的箱线图

Android，保持 View
我的应用程序包含两部分:网络部分和 GUI。它的工作方式有点像浏览器 - 用户从服务器请求一些信息，服务器发回一些代表某些 View 的数据，然后 GUI 显示它。现在我已经将网络部分实现为一项服务
go - 在golang中的表达式中检查括号是否平衡[保持]
给定表达式字符串exp，编写程序检查exp中“{”、“}”、“（”、“）”、“[”、“]的对和顺序是否正确。 package main import ( "fmt" stack "gi
python - 保持 Python 脚本运行的简单方法？
我想要一个简单的脚本在后台保持运行。目前看起来像这样: import keyboard while True: keyboard.wait('q') keyboard.send('ct
tomcat - 保持 Tomcat 更新的策略？
我维护着许多 RedHat Enterprise Linux(7 台和 8 台)服务器(>100 台)，其中包含不同的应用程序。为了保持理智，我当然会使用 Ansible 等工具，更重要的是，公共(p
Winforms:保持 Winforms 应用解锁的最佳方式？
我有一个 winforms 应用程序，它在网络服务请求期间被锁定我已经尝试使用 doEvents 来保持应用程序解锁，但它仍然不够响应，我怎样才能绕过这个锁定，让应用程序始终响应？最佳答案最好
vba - 保持/插入前导 0
我正在努力在我的项目中获得并保持领先的 0。以下是当前相关的代码: Dim jobNum As String jobNum = Left(r1.Cells(1, 1), 6) r2.Cells(1
c# - 保持 Canvas 元素相对于背景图像定位
我正在尝试在我的 Canvas 中定位元素相对于我的背景。窗口被重新调整大小，保持纵横比。背景随着窗口大小而拉伸(stretch)。问题是一旦重新调整窗口大小，元素位置就会不正确。如果窗口的大小
java - 保持 OneToMany 关系只保持集合中的第一个对象？
一直在玩弄 Hibernate 和 PostgreSQL，试图让它按预期工作。但是由于某种原因，当我尝试将具有@OneToMany 关系的对象与集合中的多个项目保持一致时，除了第一个项目之外，所有项
github - 保持 fork 最新
我想将某些东西提交到 github 存储库，但我(显然)没有任何权利这样做。我对那个 repo 做了一个分支，提交了我的更改并提交了一个 pull-request。现在，问题是过了一段时间其他人已经
julia - 保持/循环具有相同抽象父类型的对象集合的最佳实践 (Julia)
这是一个初学者问题，我仍在考虑“在 OOP 中”，所以如果我错过了手册中的答案或者答案很明显，我深表歉意。假设我们有一个抽象类型， abstract type My_Abstract_type en
javascript - 保持 jQuery 最新的实用方法？
我们正在开展的一些项目在 jQuery 1.4.2 或更早版本中有着深厚的根基，介于缺乏最新版本的性能优势(或语法糖)、使用现已弃用的方法的耻辱以及部署一个积极维护的库的 3 年以上旧版本，升级现在迫
iphone - 保持 FMDB 线程安全
我看到在FMDB 2.0中，作者为线程添加了FMDatabaseQueue。例子是: // First, make your queue. FMDatabaseQueue *queue = [FMDa
cocoa - 保持 NSScrollView 固定
我在 NSScrollView 中有一个 NSTableView。 NSTableView 的内容是通过绑定(bind)到 NSArrayController 来提供的，而 NSArrayContro
WPF 保持 TreeView 列表排序
我在 TreeView 上有一个节点，我手动填充该节点并希望保持排序。通过用户交互，TreeViewItem 上的标题可能会更改，它们应该移动到列表中的适当位置。我遍历一个 foreach，创建多个
macos - 保持 NSWindow 最前面
我从主 NSWindow 打开一个 NSWindow。 DropHereWindowController *dropHereWindowController = [[DropHereWindowCon
delphi - 按钮(保持 "up"或 "down")
我需要放置一个 form 3 按钮，当我单击该按钮时，将其显示为按下，其他按钮向上，当我单击另一个按钮时，它应该为“向下”，其他按钮应为“向上” 最佳答案所有按钮的属性“Groupindex”必须设
perl - 保持 perl 脚本运行
我有一个使用 AnyEvent::MQTT 订阅消息队列的 perl 脚本。目前我想要它做的就是在收到消息时打印出来。我对 perl 完全陌生，所以我正在使用它附带的演示代码，其中包括将 STDIN
.net - 保持 TreeView 的滚动位置
如何在 .NET 应用程序中保持 TreeView 控件的滚动位置？例如，我有一个树形 View 控件，并经历了一个向其添加各种节点的过程，并将它们固定在底部。在此过程中，我可以滚动浏览 TreeVi
vbscript - 保持 VBScript 的组织性
我维护了大量的 vbscripts，用于在我的网络上执行各种启动脚本，并且有一些我在几乎所有脚本中使用的函数。除了复制和粘贴之外，有没有人对我如何创建可重用 vbscript 代码库有建议。我并不反
azure - 保持 Azure 自托管代理运行和连接
我有一些关于 Azure 自托管的问题。假设用户 Alex 在物理机 M 上设置了 Windows 自托管代理。当 Alex 注销且计算机进入休眠状态时，代理将脱机。现在，当 Bob 登录同一台计算

首页

博学

6Ren·AI

商城

google-cloud-dataflow - 您如何通过发布/订阅将旧数据重播到数据流中并保持正确的事件时间逻辑？