gpt4 book ai didi

apache-spark - 在不停止进程的情况下刷新Spark实时流中的Dataframe

转载 作者:行者123 更新时间:2023-12-04 04:57:44 24 4
gpt4 key购买 nike

在我的应用程序中,我从 Kafka 队列中获取帐户流(使用 Spark streaming with kafka)

而且我需要从 S3 中获取与这些帐户相关的属性,因此我计划缓存 S3 生成的数据帧,因为 S3 数据目前至少一天不会更新,将来可能很快会更改为 1 小时或 10 分钟。所以问题是如何在不停止进程的情况下定期刷新缓存的数据帧。

**更新:我计划在 S3 中有更新时将事件发布到 kafka,使用 SNS 和 AWS lambda,我的流应用程序将订阅该事件并根据该事件刷新缓存的数据帧(基本上不持久( ) 缓存并从 S3 重新加载) 这是一个好方法吗?

最佳答案

这个问题最近在 Spark Mailing List 上被问到

据我所知,完成您所要求的唯一方法是在新数据到达时从 S3 重新加载 DataFrame,这意味着您还必须重新创建流式 DF 并重新启动查询。这是因为 DataFrame 从根本上说是不可变的。

如果你想在不重新加载 DataFrame 的情况下更新(变异)数据,你需要尝试 datastores that integrate with or connect to Spark 之一并允许突变。我知道的一个是 SnappyData .

关于apache-spark - 在不停止进程的情况下刷新Spark实时流中的Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45281710/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com