gpt4 book ai didi

spark-streaming - 从 Dstream 窗口返回单个 rdds

转载 作者:行者123 更新时间:2023-12-02 01:24:59 25 4
gpt4 key购买 nike

如何从 dstream 窗口返回单个 rdd?:

my_dstream_window : somedstream.window(3mins,1min)

假设上面的my_dstream_window包含{rdd1,rdd2,rdd3}我想对

做一些操作

rdd1.Operation(rdd2).Operation(rdd3)

意图:- my_dstream_window 有重复项。我可以使用 reduceByKey 为这个流删除它们,但是 my_dstream_window 的下一个片段将与旧的键值对重叠。

所以基本上我的任务是仅通过从先前的 dstream 中删除任何重叠的键值来保存不同的 rdd 键值对。

请建议。

最佳答案

DStream 上有一个未记录的方法,可以让您获取属于时间片的 RDD:

def slice(fromTime: Time, toTime: Time): Seq[RDD[T]] 

这由 window 函数在内部使用,但它也作为公共(public) API 公开。要使用它,我们需要跟踪时间,因为它需要一个时间间隔作为参数。它返回属于该区间的 RDD 序列。 (以前有显式或通过调用窗口函数“记住”)

关于spark-streaming - 从 Dstream 窗口返回单个 rdds,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37732039/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com