apache-spark - 如何只处理最后的、最相关的事件(并在延迟增长太快时跳过其他事件)？-6ren

apache-spark - 如何只处理最后的、最相关的事件(并在延迟增长太快时跳过其他事件)？

转载作者：行者123 更新时间：2023-12-03 09:24:37

24

4

上下文:处理来自 Kafka 的数据并将结果发送回 Kafka。

问题:每个事件都可能需要几秒钟的时间来处理(正在进行改进)。在那段时间里，事件(和 RDD)确实会累积。不必处理中间事件(按键)，只需处理最后一个事件。因此，当一个进程完成时，Spark Streaming 最好跳过所有不是当前最后一个事件的事件(按键)。

我不确定仅使用 Spark Streaming API 是否可以完成该解决方案。我对Spark Streaming的理解，DStream RDD会一个一个累加处理，后面有其他的不考虑。

可能的解决方案:

仅使用 Spark Streaming API，但我不确定如何使用。 updateStateByKey 似乎是一个解决方案。但我不确定当 DStream RDD 累积时它是否会正常工作，你必须只按键处理持续事件。
有两个 Spark Streaming 管道。一个通过键获取最后更新的事件，将其存储在 map 或数据库中。第二个管道仅在它们是另一个管道指示的最后一个事件时才处理事件。子问题:
- 两个管道是否可以共享相同的 sparkStreamingContext 并以不同的速度处理相同的 DStream(低处理速度与高速处理速度)？
- 是否可以在不使用外部数据库的情况下轻松地在管道之间共享值(例如 map )？我认为累加器/广播可以工作，但我不确定在两个管道之间。

最佳答案

考虑到流式传输是一个连续的过程，因此很难定义“最后”在这种情况下的含义。但是，假设您想要在给定时间段内处理最后一个事件，例如每 10 秒运行一次处理，并且在这 10 秒帧中只为每个键获取最后一个事件 - 有几种可能的方法。

窗口方法

其中一个选项是在 DStream 上创建 window:

val windowStream = dStream.window(Seconds(10), Seconds(10))
windowStream.forEachRDD { /* process only latest events */ }

在这种情况下，windowStream 将拥有 RDD，它结合了过去 10 秒内所有 RDD 的键/值，您可以在 forEachRDD 中访问所有这些键/值，就好像您最初将它们放在单个 RDD 中一样。缺点是它不会提供有关事件如何进入流的事件排序的任何信息，但您可能在值中有事件时间信息或重用 Kafka 的偏移量

updateStateByKey 方法

基本上就像您建议的那样 - 它可以让您积累值(value)。Databricks 有一个很好的例子来说明如何做到这一点 here

虽然他们在示例中进行累加，但您可以只更新键的值

Kafka 日志压缩

虽然这不会取代在 Spark 端处理它的需要，但如果您将事件保留在 Kafka 中一段时间，您可能需要考虑使用 Kafka 的 Log Compaction它不能保证重复项不会从 Kafka 进入 Spark 流，但会通过仅在日志尾部保留最新键来减少 Kafka 中存储的事件数量。

关于apache-spark - 如何只处理最后的、最相关的事件(并在延迟增长太快时跳过其他事件)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34635795/

24

4

0

文章推荐： react-router - 是否可以在 React Router 4 中匹配路由的 # 部分

文章推荐： java - 适用于不需要服务器依赖的Swing应用程序数据库

文章推荐： web-services - 发布网络服务

java - 跳过 M 个元素并从 LinkedList 中删除 N 个元素，跳过 0 引发问题
我的算法- private static MyList skip$DeleteItem(MyList L , int M , int N){ MyList curr = L; MyLi
prolog - 跳过/通过非标准序言代码
我正在 SWI-Prolog 下开发，但我的目标是 Erlog (https://github.com/rvirding/erlog)。我需要一种使用非标准 Prolog 语法的方法。有没有办法
loops - 如何批量创建循环/跳过
我正在尝试从应用程序下载一大堆文件。它的shell命令是“下载文件名”。我有一个文本文件，其中包含必须下载的所有文件名。我要做的就是运行一个脚本/命令，以便在执行上述命令时 1.从文本文件中提取文件
javascript - 跳过 if 语句和循环中未定义的值
我试图循环遍历所有用户的评论，但使用 if 语句查找特定值。问题是我的应用程序崩溃了，因为一些用户没有发表评论，因此我得到“无法读取‘收集’未定义的属性”。如何跳过 if 语句的未定义值？代码如下:
跳过 Elasticsearch 分区索引与匹配无文档查询
我们有按年份分区的索引，例如: items-2019 items-2020 考虑以下数据: POST items-2019/_doc { "@timestamp": "2019-01-01" }
javascript - 跳过 For 循环中的某些数字
我只是编写一个页面来按实体编号查看每个 ASCII 条目，我想知道是否有一种更简单/更干净的方法来跳过不需要的数字。 var x = new Ar
组织模式重复 TODO 跳过
我希望能够普遍使用重复条目，但也能够跳过特定日期。例子: ** TODO swim practice SCHEDULED 但是，我提前知道 2013-12-25 不会有练习。但是，当我将项目标
java - 跳过 for 循环中的一次迭代
如何跳过像这样的 for 循环的一次迭代: for (int i = 65; i <= 90; i++) { if (!(i == 73)) { uniq.add((char) i);
java - 跳过 while 循环的第一行
这个问题已经存在: Scanner issue when using nextLine after nextXXX [duplicate] 已关闭 9 年前。 ask=1; while(ask==1)
java - 跳过 while 语句
我在使用一个程序时遇到了一些麻烦，我应该允许用户在程序中输入任意数量的数字，直到他们不再想要为止。然后程序应该计算输入数字的平均值和最大值。我哪里做错了？ import java.util.Scann
arrays - 跳过 “for each”循环中的第一个元素？
我有一个名为segments的 Sprite 数组，我想在每个循环中跳过segments的第一个元素。我目前正在这样做: var first = true; for each (var segment
java - 跳过 for 循环的某些迭代
我目前正在编写一个 for 循环来遍历包含 38 个元素的 2D。然而，其中一些元素为空，我希望 for 循环简单地跳过它们(因为在我正在解决的难题中，它们没有与它们相关的移动)。快速搜索表明，我可以
跳过 Python 预提交单元测试
我想使用pre-commit处理我的 git 项目的 git hooks。但是，当我使用它时，git commit 命令不断跳过 unittest 执行: (smartexchange) trnboo
c - fgets() 跳过
这个问题在这里已经有了答案: Does scanf() take '\n' as input leftover from previous scanf()? (1 个回答) 关闭 9 年前。我正在
python - 跳过 for 循环中的错误行
我正在迭代 csv 文件中的每一行，并仅选择/计算满足条件的行。但是，当连续出现错误时，它会停止循环。有没有办法告诉 python 跳过错误并移动到下一行？我使用了 try 函数但没有工作。我的代码是
跳过 Scala 模式匹配案例
感谢您提供的优秀示例，我试过了，它按我的预期工作。很高兴看到有人了解问题的本质。但是，我认为我应该用 Lift 标记问题，因为我正在使用 Lift 框架，这就是(仍然)发生这个问题的地方(尽管我仍然认
javascript - 跳过 do/while 循环
大家好，我正在编写一个算法来从 NodeTree 中删除具体分支(例如 DSF)。如果您选择 Node 的名称，算法将检查该 Node 是否是其他 Node 的父 Node ；如果是，它会获取该 No
c - 跳过 for 循环的一次迭代
附有代码和输出。基本上它是第二次跳过我的输入。就像我启动代码一样，它让我输入一个选项，然后第二次跳过输入，直接转到开关的默认情况。然后第三次它就会允许我输入。不明白为什么。任何帮助将不胜感激。
Javascript 跳过 For 循环中的间隔
我在 JavaScript 中有一个 for 循环，它会定期跳过间隔，但我无法确定原因。 console.log(parseInt($('input.num-to-add').val())); num
java - 跳过 for 循环中的元素并重新分配它
我正在 JasperSoft 中填写参数。在我的报告中我有参数:参数_1、参数_2、参数_3 int a; for (a = 0; a < headers.length; a++) {

首页

博学

6Ren·AI

商城