- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
上下文:处理来自 Kafka 的数据并将结果发送回 Kafka。
问题:每个事件都可能需要几秒钟的时间来处理(正在进行改进)。在那段时间里,事件(和 RDD)确实会累积。不必处理中间事件(按键),只需处理最后一个事件。因此,当一个进程完成时,Spark Streaming 最好跳过所有不是当前最后一个事件的事件(按键)。
我不确定仅使用 Spark Streaming API 是否可以完成该解决方案。我对Spark Streaming的理解,DStream RDD会一个一个累加处理,后面有其他的不考虑。
可能的解决方案:
仅使用 Spark Streaming API,但我不确定如何使用。 updateStateByKey
似乎是一个解决方案。但我不确定当 DStream RDD 累积时它是否会正常工作,你必须只按键处理持续事件。
有两个 Spark Streaming 管道。一个通过键获取最后更新的事件,将其存储在 map 或数据库中。第二个管道仅在它们是另一个管道指示的最后一个事件时才处理事件。子问题:
两个管道是否可以共享相同的 sparkStreamingContext
并以不同的速度处理相同的 DStream(低处理速度与高速处理速度)?
是否可以在不使用外部数据库的情况下轻松地在管道之间共享值(例如 map )?我认为累加器/广播可以工作,但我不确定在两个管道之间。
最佳答案
考虑到流式传输是一个连续的过程,因此很难定义“最后”在这种情况下的含义。但是,假设您想要在给定时间段内处理最后一个事件,例如每 10 秒运行一次处理,并且在这 10 秒帧中只为每个键获取最后一个事件 - 有几种可能的方法。
其中一个选项是在 DStream
上创建 window:
val windowStream = dStream.window(Seconds(10), Seconds(10))
windowStream.forEachRDD { /* process only latest events */ }
在这种情况下,windowStream 将拥有 RDD,它结合了过去 10 秒内所有 RDD 的键/值,您可以在 forEachRDD
中访问所有这些键/值,就好像您最初将它们放在单个 RDD 中一样。缺点是它不会提供有关事件如何进入流的事件排序的任何信息,但您可能在值中有事件时间信息或重用 Kafka 的偏移量
基本上就像您建议的那样 - 它可以让您积累值(value)。Databricks 有一个很好的例子来说明如何做到这一点 here
虽然他们在示例中进行累加,但您可以只更新键的值
虽然这不会取代在 Spark 端处理它的需要,但如果您将事件保留在 Kafka 中一段时间,您可能需要考虑使用 Kafka 的 Log Compaction它不能保证重复项不会从 Kafka 进入 Spark 流,但会通过仅在日志尾部保留最新键来减少 Kafka 中存储的事件数量。
关于apache-spark - 如何只处理最后的、最相关的事件(并在延迟增长太快时跳过其他事件)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34635795/
增长,则让
当我输入内容时,如何移动 p 段落下方的所有元素,即 contenteditable。 这是我的代码: body, html { margin: 0; padding: 0; backgr
我要解决的问题: 我有一个包含 div 的外部 div。 content 内部和外部 div 之间的边距应始终相同。 当内部 div 增长/收缩时,外部 div
这document Ulrich Drepper 称为“图书馆设计、实现和维护的良好实践”(第 5 页底部): [...] the type definition should always crea
有什么方法可以获取 QPainterPath 并将其展开,就像 Photoshop 中的“选择”>“增长...”(或“展开...”)命令一样? 我想获取从 QGraphicsItem::shape 返
假设,为了问题的目的,我们有一个内存池,最初分配了 n 个 block 。但是,当达到容量时,池想要增长并变成原来大小的两倍 (2n)。 现在可以使用 C 中的 realloc 完成此调整大小操作,但
假设,为了问题的目的,我们有一个内存池,最初分配了 n 个 block 。但是,当达到容量时,池想要增长并变成原来大小的两倍 (2n)。 现在可以使用 C 中的 realloc 完成此调整大小操作,但
我正在研究 boost 库的共享内存部分,为更大的项目做准备。我需要一个共享内存段,在初始化时我不一定知道它的大小,所以我的计划是增加这个段。 我的初始实现有一个存储在共享内存中的 boost::in
这个问题在这里已经有了答案: How to disable equal height columns in Flexbox? (4 个答案) What are the differences bet
我有一个包含子表的表。我不希望子表影响表格的宽度——在溢出的情况下,我希望两者独立滚动。此外,由于子表是基于切换显示的,所以我不希望主表行根据子表是否可见而跳转 Here's代码笔。 我想我可以用 t
我有一个带栏的页面设计,它可以有一个、两个或三个栏。这些列的大小应相同。 为此我使用了 flexbox,它很好,允许我添加/删除我的列并让浏览器处理列宽的大小调整。 现在,当列中的文本大于列的宽度时,
要求: 我需要根据数据增长一个任意大的数组。 我可以猜测大小(大约 100-200),但不能保证数组每次都能适合 一旦它增长到最终大小,我需要对其执行数值计算,因此我更愿意最终得到一个二维 numpy
我有一个 3x256 规则的规则集。每个规则映射到一个 3x3 的值网格,这些值本身就是规则。 规则示例: 0 -> [[0,0,0],[0,1,0],[0,0,0]] 1 -> [[1,1,1],
我有 3 个 div,如果我给前两个 div flex: 0.5,如果我给了 flex-wrap: wrap,最后一个 div 应该移动到下一行>。如果我错了,请指正。 以下是我的 html/css:
在文档和 Bootstrap v4 问题中 (here) ,我看不到任何支持 flex-grow 的计划,例如语法如下: I use all the space lef
要求: 我需要从数据中增加一个任意大的数组。 我可以猜测大小(大约 100-200),但不能保证每次都适合数组 一旦它增长到最终大小,我需要对其执行数值计算,因此我希望最终得到一个二维 numpy 数
我知道(并在互联网上阅读-包括此资源)。增加内存的逻辑是:如果len数组小于1024-golang将array乘以2,否则将len乘以1.25(并且我们在源代码中看到了这个问题https://gith
当输入长文本时,WPF TextBox 控件会增长。 这个问题已经在 Stackoverflow 中提出了 我也引用了一些答案,但我仍然没有找到有效的正确答案。 Here提到了同样的问题,但没有针对此
我在使用 Vaadin HorizonalLayout 时遇到问题 - 我希望左侧组件填充大部分水平空间,如 Fiddle 所示 但是,当我运行 Vaadin 应用程序时,这两个组件会平分屏幕。
关于这个fiddle , 当我点击 a href在这种情况下这是一个图像,我希望图像从 div 开始增长/过渡以通过过渡/缩放填充整个页面它被放置在其中。如果这不可能,我想用 div 的背景颜色填充页
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this q
我是一名优秀的程序员,十分优秀!