gpt4 book ai didi

cassandra - 流式大数据 - 在哪里存储中间结果?

转载 作者:行者123 更新时间:2023-12-03 08:06:16 26 4
gpt4 key购买 nike

我正在从事 Spark Streaming 作业,该作业需要存储中间结果以便在下一个窗口流中重用它们。数据量非常大,因此可能无法将其存储在 Spark 缓存中。更重要的是,我需要以某种方式通过某些“ key ”读取数据。我曾考虑将 Cassandra 作为中间存储,但它也有一些缺点。或者,也许 Kafka 可以完成这项工作,但需要额外的工作才能通过键选择给定的数据部分。

你能告诉我我应该做什么吗?Storm 中如何解决此类问题 - 是否有任何内部机制或者最好使用一些外部工具?

最佳答案

Solr 作为索引 + Cassandra 作为 NoSQL 存储,对于我必须处理 tera 字节数据的用例来说工作得很好。但就我而言,我使用 Cassandra 来持久存储多年的数据。

由于架构简单,Kafka 作为 Jboss/AMQ 的替代品工作得很好。目前,我正在其中一个项目中使用 Apache Storm + Kafka 进行实时流处理。

由于您要存储中间数据,我认为通过设置正确的保留期限,Kafka 是最佳选择。

再看一看 SE Question及其他article

关于cassandra - 流式大数据 - 在哪里存储中间结果?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30892958/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com