- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
嗨,我正在尝试运行一个管道,我正在计算以 30 秒心跳*(10K 流,每个心跳每 30 秒)发布到 pubsub 的消息之间的差异。我不关心 100% 的数据完整性,但我想了解 PubsubIO 的水印启发式是什么(如果我可以调整它),以确定我是否可以忽略损失足够低的后期数据。
*请注意,pubsub 主题提供了 [可能几天的] 持久性,以防我们必须关闭管道,因此启发式方法在积压订阅中运行良好非常重要。
有人可以解释一下水印是如何计算的(假设使用了 timestamplabel() ),以及如何调整它(如果有的话)?
最佳答案
以下是我们如何计算 PubSub 水印的简要说明:
我们的目标是为通过 PubSub 发送到我们的流媒体管道的数据构建合理的启发式水印。我们对将数据发送到 PubSub 的源做了一些假设。具体来说,我们假设原始数据的时间戳“表现良好”,换句话说,在将源数据发送到 PubSub 之前,我们期望源数据上有一定数量的我们的订单时间戳。任何以超出允许的乱序范围的时间戳发送的数据都将被视为延迟数据。在我们当前的实现中,这个界限是 10 秒 这意味着在发送到 pubsub 之前重新排序时间戳最多 10 秒不会创建延迟数据。我们称这个值为估计带。然后,构建 PubSub 水印的问题简化为确保没有额外的数据因通过 PubSub 传输而延迟。
我们在 PubSub 中面临哪些挑战?由于 pubsub 不保证排序,我们必须有某种额外的元数据来充分了解积压。幸运的是,PubSub 提供了“最旧的未确认发布时间戳”方面的积压测量。这与我们消息的事件时间戳不同,因为 PubSub 与通过它发送的应用程序级元数据无关,而是 PubSub 摄取消息时的时间戳。
虽然这种测量听起来类似于水印,但它并不相同。我们不能简单地使用最旧的未确认发布时间戳作为水印。这些时间戳不等于事件时间戳,在发送历史(过去)数据的情况下,它可能是任意远的。这些时间戳的排序也可能不同,因为如上所述,我们允许进行有限的重新排序。但是,我们可以将其用作积压的度量,以了解有关积压中存在的事件时间戳的足够信息,以便我们可以建立合理的水印,如下所示。
我们将数据到达的订阅称为基本订阅。看看我们的基本订阅,我们看到消息可能无序到达。我们用它的 pubsub 发布时间戳“pt”和它的事件时间时间戳“et”来标记每条消息。请注意,两个时域可以不相关
基本订阅上的一些消息未被确认形成积压。这可能是由于它们尚未交付,或者它们可能已交付但尚未处理。还请记住,从此订阅中提取的内容分布在多个分片中。因此,不可能仅通过查看基本订阅就知道我们的水印应该是什么。
我们继续创建第二个仅元数据跟踪订阅,用于有效检查基本订阅的积压,并在积压中获取事件时间戳的最小值。通过在跟踪订阅上保持很少或没有积压,我们可以在基本订阅最旧的未确认消息之前检查消息。
我们通过确保从该订阅中提取在计算上是廉价的,从而跟上跟踪订阅。相反,如果我们在跟踪订阅方面落后太多,我们将停止推进水印。为此,我们确保至少满足以下条件之一:
[ min ( base sub oldest unack'd, tracking sub oldest unack'd - 10 sec) ,
tracking sub oldest unack'd ]
关于google-cloud-dataflow - 在 GCD 上运行的 PubsubIO 的水印启发式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42169004/
好的,所以我想从批处理文件运行我的整个工作环境... 我想要实现什么...... 打开新的 powershell,打开我的 API 文件夹并从该文件夹运行 VS Code 编辑器(cd c:\xy;
我正在查看 Cocoa Controls 上的示例并下载了一些演示。我遇到的问题是一些例子,比如 BCTabBarController ,不会在我的设备上构建或启动。当我打开项目时,它看起来很正常,没
我刚刚开始学习 C 语言(擅长 Java 和 Python)。 当编写 C 程序(例如 hello world)时,我在 ubuntu cmd 行上使用 gcc hello.c -o hello 编译
我在 php 脚本从 cron 开始运行到超时后注意到了这个问题,但是当它从命令行手动运行时这不是问题。 (对于 CLI,PHP 默认的 max_execution_time 是 0) 所以我尝试运行
我可以使用命令行运行测试 > ./node_modules/.bin/wdio wdio.conf.js 但是如果我尝试从 IntelliJ 的运行/调试配置运行它,我会遇到各种不同的错误。 Fea
Error occurred during initialization of VM. Could not reserve enough space for object heap. Error: C
将 Anaconda 安装到 C:\ 后,我无法打开 jupyter 笔记本。无论是在带有 jupyter notebook 的 Anaconda Prompt 中还是在导航器中。我就是无法让它工作。
我遇到一个问题,如果我双击我的脚本 (.py),或者使用 IDLE 打开它,它将正确编译并运行。但是,如果我尝试在 Windows 命令行中运行脚本,请使用 C:\> "C:\Software_Dev
情况 我正在使用 mysql 数据库。查询从 phpmyadmin 和 postman 运行 但是当我从 android 发送请求时(它返回零行) 我已经记录了从 android 发送的电子邮件是正确
所以这个有点奇怪 - 为什么从 Java 运行 .exe 文件会给出不同的输出而不是直接运行 .exe。 当 java 在下面的行执行时,它会调用我构建的可与 3CX 电话系统配合使用的 .exe 文
这行代码 Environment.Is64BitProcess 当我的应用单独运行时评估为真。 但是当它在我的 Visual Studio 单元测试中运行时,相同的表达式的计算结果为 false。 我
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
我写了一个使用 libpq 连接到 PostgreSQL 数据库的演示。 我尝试通过包含将 C 文件连接到 PostgreSQL #include 在我将路径添加到系统变量 I:\Program F
如何从 Jenkins 运行 Android 模拟器来运行我的测试?当我在 Execiute Windows bath 命令中写入时,运行模拟器的命令: emulator -avd Tester 然后
我已经配置好东西,这样我就可以使用 ssl 登录和访问在 nginx 上运行的 errbit 我的问题是我不知道如何设置我的 Rails 应用程序的 errbit.rb 以便我可以运行测试 nginx
我编写了 flutter 应用程序,我通过 xcode 打开了 ios 部分并且应用程序正在运行,但是当我通过 flutter build ios 通过 vscode 运行应用程序时,我得到了这个错误
我有一个简短的 python 脚本,它使用日志记录模块和 configparser 模块。我在Win7下使用PyCharm 2.7.1和Python 3.3。 当我使用 PyCharm 运行我的脚本时
我在这里遇到了一些难题。 我的开发箱是 64 位的,windows 7。我所有的项目都编译为“任何 CPU”。该项目引用了 64 位版本的第 3 方软件 当我运行不使用任何 Web 引用的单元测试时,
当我注意到以下问题时,我正在做一些 C++ 练习。给定的代码将不会在 Visual Studio 2013 或 Qt Creator 5.4.1 中运行/编译 报错: invalid types 'd
假设我有一个 easteregg.py 文件: from airflow import DAG from dateutil import parser from datetime import tim
我是一名优秀的程序员,十分优秀!