gpt4 book ai didi

hadoop - 从日志存档创建Spark Dstream

转载 作者:行者123 更新时间:2023-12-02 21:31:31 24 4
gpt4 key购买 nike

我是Spark的新手。看起来超棒!

我有来自不同来源的每小时日志文件的内容,并且想用〜5分钟的滑动窗口从它们创建DStream,以探索相关性。

我只是想知道实现此目标的最佳方法是什么。我应该把它们切成5分钟,放在不同目录中吗?该命名结构将如何与不同HDFS目录中的特定时间片相关联?我是否实现了一个知道日志记录嵌入时间戳的filter()方法?

建议,欢迎使用RTFM。

谢谢!
克里斯

最佳答案

您可以将apache Kafka用作Dstream源,然后可以尝试reduceByKeyAndWindow Dstream函数。它将根据您的所需时间创建一个窗口

Trying to understand spark streaming windowing

关于hadoop - 从日志存档创建Spark Dstream,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34031462/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com