google-cloud-dataflow - 使用 Apache Beam 按键处理事件的总排序-6ren

google-cloud-dataflow - 使用 Apache Beam 按键处理事件的总排序

转载作者：行者123 更新时间：2023-12-03 20:27:53

26

4

问题背景

我试图从实时流中生成每个键的事件项的总(线性)顺序，其中顺序是事件时间(从事件有效负载派生)。

方法

我曾尝试使用流来实现这一点，如下所示:

1)设置一个非重叠的顺序窗口，例如持续时间 5 分钟

2)建立一个允许的迟到——丢弃迟到的事件是可以的

3) 设置累积模式以保留所有已触发的 Pane

4) 使用“AfterwaterMark”触发器

5) 处理触发 Pane 时，仅考虑最后一个 Pane

6) 使用 GroupBy.perKey 确保此窗口中此键的所有事件将作为单个资源上的一个单元进行处理

虽然这种方法确保给定窗口内每个键的线性顺序，但它并不能保证跨多个窗口，例如可能有一个键的事件窗口，它发生在与前面的窗口同时处理之后，如果第一个窗口失败并且必须重试，这很容易发生。

我正在考虑采用这种方法，首先可以处理实时流，以便它按键对事件进行分区，并将它们写入以窗口范围命名的文件中。
由于光束处理的并行特性，这些文件也会乱序生成。
然后，单个流程协调器可以将这些文件按顺序提交到批处理管道 - 只有在它收到前一个文件并且其下游处理已成功完成时才提交下一个文件。

问题是 Apache Beam 只会在该时间窗口中至少有一个时间元素时触发 Pane 。因此，如果事件中存在间隙，则生成的文件中可能存在间隙 - 即丢失的文件。丢失文件的问题在于，协调批处理器无法区分时间窗口是否已经过去而没有数据，或者是否出现故障，在这种情况下，直到文件最终到达它才能继续进行。

强制事件窗口触发的一种方法可能是以某种方式将虚拟事件添加到每个分区和时间窗口的流中。然而，这很难做到……如果时间序列中有很大的差距，那么如果这些虚拟事件发生在很晚的事件周围，那么它们将被视为迟到而被丢弃。

是否有其他方法可以确保每个可能的事件窗口都有触发器，即使这会导致输出空文件？

从实时流中按键生成总排序是 Apache Beam 的一个容易处理的问题吗？我应该考虑另一种方法吗？

最佳答案

根据您对易处理的定义，当然可以在 Apache Beam 中按事件时间戳对每个键的流进行完全排序。

以下是设计背后的考虑因素:

Apache Beam 不保证按顺序传输，因此在管道内没有用。因此，我假设您正在执行此操作，以便您可以写入外部系统，并且只有在它们出现时才能处理事物。

如果一个事件有时间戳 t，你永远不能确定没有更早的事件会到达，除非你等到 t 是可丢弃的。

所以这是我们将如何做到的:

我们会写一个 ParDo使用 state和计时器( blog post still under review )在全局窗口中。这使其成为每个键的工作流程。

我们将在元素到达时缓冲它们的状态。因此，您允许的延迟会影响您需要的数据结构的效率。你需要的是一个堆来查看和弹出最小时间戳和元素；没有内置的堆状态，所以我将它写成 ValueState .

我们将设置一个事件时间计时器以在元素的时间戳不再矛盾时接收回调。

我将假设一个自定义 EventHeap为简洁起见，数据结构。在实践中，您希望将其分解为多个状态单元以最小化传输的数据。堆可能是对原始状态类型的合理补充。

我还将假设我们需要的所有编码人员都已经注册并专注于状态和计时器逻辑。

new DoFn<KV<K, Event>, Void>() {

  @StateId("heap")
  private final StateSpec<ValueState<EventHeap>> heapSpec = StateSpecs.value();

  @TimerId("next")
  private final TimerSpec nextTimerSpec = TimerSpec.timer(TimeDomain.EVENT_TIME);

  @ProcessElement
  public void process(
      ProcessContext ctx,
      @StateId("heap") ValueState<EventHeap> heapState,
      @TimerId("next") Timer nextTimer) {
    EventHeap heap = firstNonNull(
      heapState.read(),
      EventHeap.createForKey(ctx.element().getKey()));
    heap.add(ctx.element().getValue());
    // When the watermark reaches this time, no more elements
    // can show up that have earlier timestamps
    nextTimer.set(heap.nextTimestamp().plus(allowedLateness);
  }

  @OnTimer("next")
  public void onNextTimestamp(
      OnTimerContext ctx,
      @StateId("heap") ValueState<EventHeap> heapState,
      @TimerId("next") Timer nextTimer) {
    EventHeap heap = heapState.read();
    // If the timer at time t was delivered the watermark must
    // be strictly greater than t
    while (!heap.nextTimestamp().isAfter(ctx.timestamp())) {
      writeToExternalSystem(heap.pop());
    }
    nextTimer.set(heap.nextTimestamp().plus(allowedLateness);
  }
}

这应该可以让您开始走向任何您的底层用例。

关于google-cloud-dataflow - 使用 Apache Beam 按键处理事件的总排序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45888719/

26

4

0

文章推荐： batch-file - 使用批处理文件创建 VBScript

文章推荐： reactjs - 为什么不能给钩子(Hook)的初始值一个空对象？

文章推荐： python - 如何更改 python turtle 窗口的大小？

文章推荐： scala - 如何使用 SBT 仅运行单个 Spec2 规范？

apache-beam - Apache Beam 设置自定义事件时间戳和水印
我正在使用 Apache Beam 从 Kafka 读取数据。由于乱序写入 Kafka，我想使用有效负载中的事件时间戳而不是默认的 LogAppendTime。我看到了一个解决方案 Apache B
apache-beam - Apache Beam 中的动态管道
我有一个通用输入请求，其中包含需要转换和保存的输入。如果需要转换生成的输出，我会为它实现一个新的处理器(转换器)。 class Request { Input input; Transform
apache-beam - 从 Apache Beam 管道收集输出并将其显示到控制台
我已经在 Apache Beam 上工作了几天。我想快速迭代我正在工作的应用程序，并确保我正在构建的管道没有错误。在 Spark 中我们可以使用 sc.parallelise当我们应用一些 Actio
apache-beam - 使用 beam 和 tf 变换创建通用句子编码器嵌入时出错
我有一个简单的波束管道，它使用带有 tf 变换的通用句子编码器获取一些文本并获得嵌入。与使用 tf 1 制作的演示非常相似。 import tensorflow as tf import apache
apache-beam - 调用 API 是否违反 Apache Beam 编程模型？
使用Apache Beam丰富数据时，对每个数据项都进行一次API调用会不会出错？ (我是 Apache Beam 的新手) 最佳答案不，但您可以批处理 API 调用以获得更好的性能。查看 this
android - 使用 Android Beam(或 S-Beam)发送大文件
我的任务是为一款应用添加支持，以便通过 Android 上的“NFC”在设备之间传输大型数据文件(数十兆字节)。我知道 Android 上真正的 NFC 非常慢，但我知道 ICS 支持将批量数据传输
android - NFC:S-beam 和 Android beam 有什么区别？
NFC:S-beam 和 Android beam 有什么区别？有人可以解释 Wifi-Direct/Bluetooth 激活和传输数据的确切流程吗？最佳答案在 stackexchanged 上解
python - 数据流 : using beam. combiners 上一个 beam.combiners 的结果
我正在使用 Beam 管道计算流式数据的电话号码频率。我使用的滑动窗口每 5 分钟重复一次，总周期为 15 分钟，因此正如预期的那样，对于某些输入，当输入落在多个窗口中时，我会得到多个输出。计算出现
apache-beam - 如何使用 Apache Beam (Java) 进行异步 Http 调用？
输入的PCollection是http requests，是一个有界数据集。我想在 ParDo 中进行异步 http 调用(Java)，解析响应并将结果放入输出 PCollection 中。我的代码如
apache-beam - 如何使用 Apache Beam (Java) 进行异步 Http 调用？
输入的PCollection是http requests，是一个有界数据集。我想在 ParDo 中进行异步 http 调用(Java)，解析响应并将结果放入输出 PCollection 中。我的代码如
apache-beam-io - 在 Apache Beam 中使用 PAssert containsInAnyOrder 比较对象
在使用 PAssert 为我的光束管道编写单元测试时，管道输出对象很好，但在与以下断言错误进行比较时测试失败: java.lang.AssertionError: Decode pubsub mess
java - 使用 Samza Runner 执行 Beam Pipeline 时出现 org.apache.beam.sdk.util.UserCodeException
我正在尝试从 here 运行 Wordcount 演示与 Samza Runner。这是我的build.gradle plugins { id 'eclipse' id 'java' id
java - Flink runner 上的 Beam : ClassNotFoundException: org. apache.beam.runners.flink.translation.wrappers.streaming.WorkItemKeySelector
我正在尝试使用 Beam 和 Flink runner 设置流处理管道。 Flink 是一个本地 session 部署，包含以下 docker-compose 文件: version: "3" ser
Elixir /Phoenix : Missing beam file elf_format <<"/usr/lib/erlang/lib/hipe-3.11.2/ebin/elf_format.beam"
在尝试编译我的 Phoenix 项目的发行版时，出现以下错误: $ mix release .... ==> Generated .appup for myapp 0.0.1 -> 0.0.2 ===
google-cloud-dataflow - Apache Beam - org.apache.beam.sdk.util.UserCodeException : java. sql.SQLException:无法创建 PoolableConnectionFactory(不支持方法)
我正在尝试使用 Apache beam-dataflow 连接到安装在云实例中的配置单元实例。当我运行它时，出现以下异常。当我使用 Apache Beam 访问此数据库时，就会发生这种情况。我见过很多
google-cloud-platform - 在 mac zsh 终端上安装 apache-beam[gcp] 时出错 - “zsh: no matches found: apache-beam[gcp]”
我正在使用 zsh，并且我已经安装了 gcloud，以便通过我的 Mac 上的本地终端与 GCP 进行交互。我遇到了这个错误“zsh:找不到匹配项:apache-beam[gcp]”。但是，当我在 G
beam search及pytorch的实现方式
主要记录两种不同的beam search版本版本一使用类似层次遍历的方式进行搜索，用队列进行维护，每次循环对当前层的所有节点进行搜索，这些节点每个分别对应topk个节点作为下一层候选节点，取
apache-beam - 每秒调用最大请求数的管道设计
我的目标是创建一个每秒调用后端(云托管)服务最多次数的管道......我该如何实现？背景故事:想象一下后端服务使用单个输入调用并返回单个输出。该服务具有与其关联的配额，允许每秒最大请求数(假设每秒
apache-beam - 如何写入在运行时定义的文件名？
我想写入一个 gs 文件，但在编译时我不知道文件名。它的名称基于在运行时定义的行为。我该如何继续？最佳答案如果你使用 Beam Java，你可以使用 FileIO.writeDynamic()为此
apache-beam - 如何使用Beam读取大型CSV？
我试图弄清楚如何使用Apache Beam读取大型CSV文件。 “大”是指几千兆字节(因此一次将整个CSV读取到内存中是不切实际的)。到目前为止，我已经尝试了以下选项: 使用TextIO.read(

首页

博学

6Ren·AI

商城

google-cloud-dataflow - 使用 Apache Beam 按键处理事件的总排序