apache-spark - Structured Streaming 如何为每个微批处理规划流查询的逻辑计划？-6ren

apache-spark - Structured Streaming 如何为每个微批处理规划流查询的逻辑计划？

转载作者：行者123 更新时间：2023-12-04 15:39:04

25

4

我在我的笔记本电脑上设置了一个小测试，它执行以下操作:

我创建了一个包含 1000 条消息的 Kafka 主题，其中每条消息包含几行，每行大约有 100 列。

在 List[Column] 中创建 300 个非常复杂的 Spark 列。没有聚合。

在从 Kafka 设置流时，我设置了 .option("maxOffsetsPerTrigger", 1) 所以在每个小批量中只处理一条消息。

然后我将这些列应用于仅包含一条消息的小批量。

val testStream = myStream
  .select(manyTestCols :_*)
  .writeStream
  .format("console")
  .outputMode("append")
  .start()
  .awaitTermination()

Spark 大约需要 10 秒来处理每条消息。

然后我将 maxOffsetsPerTrigger 更改为 .option("maxOffsetsPerTrigger", 1000) 以便在每个小批量中处理 1000 条消息。

Spark 需要大约 11 秒来处理每个小批量中的所有 1000 条消息。

因此，Spark 似乎做了某种“设置工作”，然后在每个小批量开始后非常快速地处理它。

对于每个小批量，这个“设置工作”是否会从查询计划到物理计划？

如果是这样，Spark 对每个小批量执行此操作是否有意义？

还是完全发生了其他事情？我正在查看 Spark 源代码，但希望得到已经完成此练习的人的反馈。

任何见解的 Tx。

最佳答案

Is this "setup work" going through the query planning through to the physical plan, for each mini-batch?

对于要在运行时填写的流查询的查询计划的执行特定部分部分是，如下(带有指向相应代码部分的链接):

Proper relations for data sources (例如 LocalRelation 用于无数据源)

Event-time watermark

Current (micro-batch) time

If so, does it make sense for Spark to do this each mini-batch?

绝对地。在 Structured Streaming 中没有其他方法可以短路无数据源，跟踪当前时间和水印。

这也是 extra no-data micro-batch for stateful operators 的原因例如，当水印发生变化时。

Am looking at Spark source code, but would appreciate feedback from someone that has gone through this exercise already.

见 MicroBatchExecution和 IncrementalExecution .

关于apache-spark - Structured Streaming 如何为每个微批处理规划流查询的逻辑计划？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58640012/

25

4

0

文章推荐： jackson - 使用 Jackson MixIn 添加属性？

文章推荐： Pandas 为每行获取上下栅栏

后藤此时出乎意料——批处理
我正在尝试制作一个基于文本的批处理游戏。但是我刚开始写我以前从未遇到过的问题时遇到了一个问题。 :menu :: the game menu - opens when the game starts
PHP 批处理
我正在构建一个社交媒体应用程序，用户需要发布一些内容，然后将发布的内容传播给他/她的 4 个圈子内的所有成员。这意味着查询进入循环。它就像一个家谱。逻辑工作得很好。但现在，当每个圈子中的成员数量不断增
批处理动态sql
１. DECLARE TYPE ref_cursor_type IS ref CURSOR; v_mycursor ref_cursor_type;
loops - [批处理]循环直到按下一个键
我想在这里做的是循环直到按下“x”。我知道 CHOICE 带有 /T 选项。但是 CHOICE 对我要播放的动画的超时时间太长。这是一个例子: @echo off cls set frame=2 :
string - 批处理，比较两个文件并将差异写入另一个文件
我已经寻找解决方案，但我仍然遇到问题。我有两个文件: File1.txt 1111 2222 3333 File2.txt 1111 2222 3333 4444 我想要一个只有差异的输
regex - 批处理 - 将变量与正则表达式进行比较
我正在做一个批处理脚本，必须检查计算机上是否安装了一些程序。为此，我执行 programName --version我将输出存储在一个变量中。问题是当我尝试与正则表达式进行比较时(只知道该程序是否存在
function - 批处理 - 如何从批处理文件中返回一个值？
我知道如何从同一个批处理文件中的函数返回值，但我发现从不同的批处理文件返回值时存在一些问题。下面是一个例子: 文件 1.cmd SETLOCAL ENABLEEXTENSIONS SETLOCAL E
arrays - 批处理 - 从数组中删除元素
我相信这个问题的答案应该很简单。我从一个地方获取目录列表并将它们存储到文本文档中。然后我读取文本文档名称并将它们存储到一个数组中。在此过程结束时，我希望删除数组中的所有条目。我想这样做的原因是因为我
windows - 批处理-FTP删除文件夹早于
我家有两个摄像头，几乎每天都在创建图像。他们将它们保存到我的FTP服务器(Fritz.Box\Nas驱动器)。文件夹结构如下: +-2016-08-24 +-+Subfolder +----+Ano
windows - 如何检查输入是否已在列表中-批处理
在Windows Batch中执行此操作。我有一个名称列表，并要求用户输入其名称。我想检查该名称是否已经存在于列表中，如果存在，则直接进入goto，否则它将名称添加到列表中。 @echo off s
windows - 批处理 For 循环以获取第一个值
我正在编写一个批处理文件，我想运行一个 for 循环，将它的第一个值设置为一个变量。我只需要命令的第一个值，但我找不到另一种方法来做到这一点。我设置它的方式是使用一个 for 循环，然后是一个 do
file - 批处理 - 有没有办法批量同步锁定txt文件？
我需要创建一个批处理文件，使用tracert命令跟踪一些IP，并将跟踪写入txt文件。我希望它很快，所以我想为每个跟踪启动一个新命令，以使所有跟踪请求立即启动。这是我的 ping.bat: @ech
powershell - 转义序列问题-批处理
我想在批处理文件中使用PowerShell命令发送电子邮件。为此，我实现了一个名为 sendMail 的函数。我这样称呼它: setlocal enabledelayedexpansion call:
java - 如何使用java执行selenium脚本/批处理
想要使用 java 执行 selenium 脚本/批处理脚本。根据输入参数调用脚本/批处理脚本。了解如何使用 java 代码运行脚本/批处理。请帮帮我。最佳答案要运行 java 项目中文件中包
java - 批处理 JDBC
我正在练习 JDBC 批处理并遇到错误: 错误1:不支持的功能错误2:执行不能为空或为null Property files include: itemsdao.updateBookName = Up
string - 批处理 - 从字符串中删除最后一个字符
我从 json 文件中得到了以下字符串: 39468856, 现在，我想用这些数字进行计算..因此，我必须删除末尾的 , 。此时我使用以下代码: for /f "skip=24 tokens=2"
sql - sql文件的执行时间-批处理
我有一堆 SQL 查询作为文件存储在磁盘上。它们都是纯 SELECT 查询，换句话说，它们只做读操作。我正在连接到 Oracle 11g 数据库，我想测量所有这些查询的大致执行时间。有没有办法以编
java - 批处理 - 从属性文件读取文件路径时出错
我正在使用 java 来存储属性文件的目录路径。然后在 bat 文件中我使用属性作为变量。问题出在 Java 中，文件路径存储为 SOME_VAR=D\:\\Madhan\\Program Fil
string - 批处理 - 用百分比符号替换
我想用“%”替换字符串中的“mod”:set string=%string:mod=x%我应该输入什么作为“x”？最佳答案您可以通过启用延迟扩展来做到这一点，以便您可以使用 !作为分隔符。然后，将
variables - 批处理 - 在另一个变量中回显变量的值？
在我目前正在处理的批处理文件中，我遇到了一个小问题。我有一个名为 Dimensions(number from 1-5, defined in a for /l loop).txt 的文件，其中包含

首页

博学

6Ren·AI

商城

apache-spark - Structured Streaming 如何为每个微批处理规划流查询的逻辑计划？