gpt4 book ai didi

apache-spark - 如何访问 Spark Streaming 应用程序中的缓存数据?

转载 作者:行者123 更新时间:2023-12-04 04:50:05 25 4
gpt4 key购买 nike

我有一个 Kafka 代理,其中包含来自我的 IoT 应用程序的 JSON 数据。我从 Spark Streaming 应用程序连接到该服务器以进行一些处理。

我想将我的 json 数据的一些特定字段保存在内存 (RAM) 中,我相信我可以使用 cache() 来实现这些字段。和 persist()运营商。

下次当我在 Spark Streaming 应用程序中收到新的 JSON 数据时,我会检查内存 (RAM) 是否有可以检索的公共(public)字段。如果是的话,我会做一些简单的计算,最后我会更新我保存在内存 (RAM) 中的字段的值。

因此,我想知道我之前描述的是否可能。如果是,我是否必须使用 cache() 或 persist() ?以及如何从内存中检索我的字段?

最佳答案

cache 是可能的/persist它使用内存或磁盘存储 Spark 应用程序中的数据(不一定仅适用于 Spark Streaming 应用程序——它是 caching in Spark 的更普遍用法)。

但是...在 Spark Streaming 中,您会获得对此类用例的特殊支持,这些用例称为 。有状态计算 .见 Spark Streaming Programming Guide探索什么是可能的。

我认为对于您的用例 mapWithState运算符正是您所追求的。

关于apache-spark - 如何访问 Spark Streaming 应用程序中的缓存数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40682101/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com