java - 使用 Google Dataflow 在批处理模式下使用 KafkaIO 进行消费-6ren

java - 使用 Google Dataflow 在批处理模式下使用 KafkaIO 进行消费

转载作者：行者123 更新时间：2023-11-30 05:42:52

24

4

Google Dataflow 作业使用 Apache Beam 的 KafkaIO 库以及 AvroIO 和 Windowed Writes 将输出写入 Google Cloud Storage 存储桶中的“.avro”文件。但是，它默认使用流式处理作为生产数据的处理作业类型。

是否可以使用数据流中的 KafkaIO 使用批处理处理来使用来自 Kafka 主题的数据。此数据流作业不需要近实时处理(流式处理)。有没有办法将传入记录插入 BigQuery 表中，而无需流式插入成本，从而实现批处理类型。

运行频率较低的批处理可以发挥作用，从而减少内存、vCPU 和计算成本。

根据:https://beam.apache.org/releases/javadoc/2.5.0/org/apache/beam/sdk/io/kafka/KafkaIO.html

KafkaIO 源返回 Kafka 记录的无界集合作为 PCollection>。

这是否意味着 Kafka 是无限源的，不能以批处理模式运行？

测试 .withMaxNumRecords(1000000) 条件以批处理模式运行作业。但是，要在实时传入数据中运行作业，我需要删除此条件。

我尝试使用窗口并将流模式选项标志设置为 false，但没有成功，如下面的代码所示。


// not streaming mode
options.setStreaming(false);

...
PCollection<String> collection = p.apply(KafkaIO.<String, String>read()
               .withBootstrapServers("IPADDRESS:9092")
               .withTopic(topic)                                
               .withKeyDeserializer(StringDeserializer.class)
               .withValueDeserializer(StringDeserializer.class)                
               .updateConsumerProperties(props)
               .withConsumerFactoryFn(new ConsumerFactory())                            
//             .withMaxNumRecords(1000000)
               .withoutMetadata() 
       ).apply(Values.<String>create())
       .apply(Window.into(FixedWindows.of(Duration.standardDays(1))));


...
//convert to Avro GenericRecord

.apply("AvroToGCS", AvroIO.writeGenericRecords(AVRO_SCHEMA)
.withWindowedWrites()
.withNumShards(1)
.to("gs://BUCKET/FOLDER/")
.withSuffix(".avro"));

该代码导致使用 4 个 vCPU 和 1 个工作线程在 9 分钟内处理 180 万条记录的流作业类型。此后，我不得不停止工作(流失)以节省成本。

在数据流中对传入数据执行批处理，是否可以收集将其写入 avro 文件的批量记录，并继续执行此操作，直到偏移量 catch 最新。

非常感谢任何示例或示例代码。

最佳答案

无限源无法在批处理模式下运行。这是设计使然，因为批处理管道期望读取有限数量的数据，并在处理完成后终止。

但是，您可以通过限制读取的记录数量将无界源转换为有界源，您已经这样做了。注意:不保证会读取哪些记录。

流管道应该始终处于运行状态，以便它们可以读取实时数据。批处理管道旨在读取存储数据的积压。

批处理管道不会很好地响应读取实时数据，当您启动管道然后终止时，它会读取那里的任何数据。

关于java - 使用 Google Dataflow 在批处理模式下使用 KafkaIO 进行消费，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55351031/

24

4

0

文章推荐： javascript - 在javascript中设置延迟时间

文章推荐： javascript - 在 JavaScript 中跟踪安全策略权限

后藤此时出乎意料——批处理
我正在尝试制作一个基于文本的批处理游戏。但是我刚开始写我以前从未遇到过的问题时遇到了一个问题。 :menu :: the game menu - opens when the game starts
PHP 批处理
我正在构建一个社交媒体应用程序，用户需要发布一些内容，然后将发布的内容传播给他/她的 4 个圈子内的所有成员。这意味着查询进入循环。它就像一个家谱。逻辑工作得很好。但现在，当每个圈子中的成员数量不断增
批处理动态sql
１. DECLARE TYPE ref_cursor_type IS ref CURSOR; v_mycursor ref_cursor_type;
loops - [批处理]循环直到按下一个键
我想在这里做的是循环直到按下“x”。我知道 CHOICE 带有 /T 选项。但是 CHOICE 对我要播放的动画的超时时间太长。这是一个例子: @echo off cls set frame=2 :
string - 批处理，比较两个文件并将差异写入另一个文件
我已经寻找解决方案，但我仍然遇到问题。我有两个文件: File1.txt 1111 2222 3333 File2.txt 1111 2222 3333 4444 我想要一个只有差异的输
regex - 批处理 - 将变量与正则表达式进行比较
我正在做一个批处理脚本，必须检查计算机上是否安装了一些程序。为此，我执行 programName --version我将输出存储在一个变量中。问题是当我尝试与正则表达式进行比较时(只知道该程序是否存在
function - 批处理 - 如何从批处理文件中返回一个值？
我知道如何从同一个批处理文件中的函数返回值，但我发现从不同的批处理文件返回值时存在一些问题。下面是一个例子: 文件 1.cmd SETLOCAL ENABLEEXTENSIONS SETLOCAL E
arrays - 批处理 - 从数组中删除元素
我相信这个问题的答案应该很简单。我从一个地方获取目录列表并将它们存储到文本文档中。然后我读取文本文档名称并将它们存储到一个数组中。在此过程结束时，我希望删除数组中的所有条目。我想这样做的原因是因为我
windows - 批处理-FTP删除文件夹早于
我家有两个摄像头，几乎每天都在创建图像。他们将它们保存到我的FTP服务器(Fritz.Box\Nas驱动器)。文件夹结构如下: +-2016-08-24 +-+Subfolder +----+Ano
windows - 如何检查输入是否已在列表中-批处理
在Windows Batch中执行此操作。我有一个名称列表，并要求用户输入其名称。我想检查该名称是否已经存在于列表中，如果存在，则直接进入goto，否则它将名称添加到列表中。 @echo off s
windows - 批处理 For 循环以获取第一个值
我正在编写一个批处理文件，我想运行一个 for 循环，将它的第一个值设置为一个变量。我只需要命令的第一个值，但我找不到另一种方法来做到这一点。我设置它的方式是使用一个 for 循环，然后是一个 do
file - 批处理 - 有没有办法批量同步锁定txt文件？
我需要创建一个批处理文件，使用tracert命令跟踪一些IP，并将跟踪写入txt文件。我希望它很快，所以我想为每个跟踪启动一个新命令，以使所有跟踪请求立即启动。这是我的 ping.bat: @ech
powershell - 转义序列问题-批处理
我想在批处理文件中使用PowerShell命令发送电子邮件。为此，我实现了一个名为 sendMail 的函数。我这样称呼它: setlocal enabledelayedexpansion call:
java - 如何使用java执行selenium脚本/批处理
想要使用 java 执行 selenium 脚本/批处理脚本。根据输入参数调用脚本/批处理脚本。了解如何使用 java 代码运行脚本/批处理。请帮帮我。最佳答案要运行 java 项目中文件中包
java - 批处理 JDBC
我正在练习 JDBC 批处理并遇到错误: 错误1:不支持的功能错误2:执行不能为空或为null Property files include: itemsdao.updateBookName = Up
string - 批处理 - 从字符串中删除最后一个字符
我从 json 文件中得到了以下字符串: 39468856, 现在，我想用这些数字进行计算..因此，我必须删除末尾的 , 。此时我使用以下代码: for /f "skip=24 tokens=2"
sql - sql文件的执行时间-批处理
我有一堆 SQL 查询作为文件存储在磁盘上。它们都是纯 SELECT 查询，换句话说，它们只做读操作。我正在连接到 Oracle 11g 数据库，我想测量所有这些查询的大致执行时间。有没有办法以编
java - 批处理 - 从属性文件读取文件路径时出错
我正在使用 java 来存储属性文件的目录路径。然后在 bat 文件中我使用属性作为变量。问题出在 Java 中，文件路径存储为 SOME_VAR=D\:\\Madhan\\Program Fil
string - 批处理 - 用百分比符号替换
我想用“%”替换字符串中的“mod”:set string=%string:mod=x%我应该输入什么作为“x”？最佳答案您可以通过启用延迟扩展来做到这一点，以便您可以使用 !作为分隔符。然后，将
variables - 批处理 - 在另一个变量中回显变量的值？
在我目前正在处理的批处理文件中，我遇到了一个小问题。我有一个名为 Dimensions(number from 1-5, defined in a for /l loop).txt 的文件，其中包含

首页

博学

6Ren·AI

商城

java - 使用 Google Dataflow 在批处理模式下使用 KafkaIO 进行消费