gpt4 book ai didi

hadoop - 为静态时间序列数据选择存储层

转载 作者:可可西里 更新时间:2023-11-01 14:46:43 24 4
gpt4 key购买 nike

总的来说,我是大数据技术栈的新手。我正在实现一个实时分析基础架构,它将从我们的微服务后端中的不同服务中获取大量/高速数据。摄取的数据(和数据流)将用于填充关键业务指标的仪表板以及 BI 查询和机器学习。

所有后端服务都将数据事件写入到现有的 Kafka 集群中。我开始研究 Spark 原型(prototype),以从 Kafka 集群读取数据并丰富/处理它。

现在我正在研究将静态数据存储在何处。我知道像 Vertica 和 Terradata 这样的实时分析技术相当流行。但他们有不小的前期资本投资。

所以我努力坚持开源。经过一些研究后,我决定使用 HDFS/Impala 处理静态数据,并在 Hadoop 上运行 SQL 来处理我们的实时 BI 查询。

然后我开始考虑是否使用 Cassandra 来存储静态数据而不是使用 HDFS/Impala 更有意义。 Cassandra 横向扩展并具有快速写入和读取。我还阅读了一些文献,其中人们对使用 C* 进行此类用途给出了很好的论据。

欢迎任何评论/反馈。

最佳答案

我们在 Cassandra 中存储了 PB 级的过期时间序列数据,对此我们感到非常满意。在摄取管道中,我们能够每秒进行数百万次写入,并且读取速度很快(亚毫秒)以用于显示/BI。对于大型 ML 任务,您可以在 Cassandra 上运行 spark 进行分析。

关于hadoop - 为静态时间序列数据选择存储层,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37713266/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com