gpt4 book ai didi

cassandra - 带有 Apache Spark 的 Lambda 架构

转载 作者:行者123 更新时间:2023-12-03 06:50:16 28 4
gpt4 key购买 nike

我正在尝试使用以下工具实现 Lambda 架构:Apache Kafka 接收所有数据点、Spark 用于批处理(大数据)、Spark Streaming 用于实时(快速数据)以及 Cassandra 来存储结果。

此外,我收到的所有数据点都与用户 session 相关,因此,对于批处理,我只感兴趣在 session 完成后处理数据点。因此,由于我使用的是 Kafka,解决此问题的唯一方法(假设所有数据点都存储在同一主题中)是让批处理获取该主题中的所有消息,然后忽略与以下 session 相对应的消息:还没有完成。

所以我想问的是:

  • 这是实现 Lambda 架构的好方法吗?或者应该使用 Haddop 和 Storm 来代替? (我找不到有关人们使用 Kafka 和 Apache Spark 进行批处理、Map Reduce 的信息)
  • 是否有更好的方法来解决用户 session 问题?

谢谢。

最佳答案

这是一个很好的方法。将 Spark 用于速度层和批处理层使您可以编写一次逻辑并在两个上下文中使用它。

关于您的 session 问题,既然您是在批处理模式下执行此操作,为什么不直接将数据从 Kafka 提取到 HDFS 或 Cassandra,然后在那里编写完整 session 的查询呢?您可以使用 Spark Streaming 与 Kafka 的“直接连接”来执行此操作。

关于cassandra - 带有 Apache Spark 的 Lambda 架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31325386/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com