gpt4 book ai didi

hadoop - 如何/在哪里可以写入时间序列数据?作为 Hadoop、HBase、Cassandra 的 Parquet 格式?

转载 作者:可可西里 更新时间:2023-11-01 15:20:18 33 4
gpt4 key购买 nike

我有实时时间序列传感器数据。我的主要目标是保留原始数据。我应该这样做,以便存储成本最低。

我的场景是这样的;

所有传感器都会产生时间序列数据,我必须保存这些原始时间序列数据以进行批量分析。 Parquet 格式非常适合降低存储成本。但是,如果每个传入的时间序列数据都写成 parquet 格式有意义吗?

另一方面,我想实时处理每个传入的时间序列数据。对于实时场景;我可以使用卡夫卡。但是,Hbase 或 Cassandra 是否可以代替 Kafka 用于批处理和实时分析?

如果我使用 Cassandra,我该如何进行批量分析?

最佳答案

But, can Hbase or Cassandra be used for both batch and real-time analysis instead of Kafka?

将 Kafka 视为进入这些商店的管道。它也不是使用“代替”的替代品。 HBase 和 Cassnadras 是商店,你需要从它们中“批处理”数据......你可以使用 Kafka Streams(或 Spark、Flink 或我个人最喜欢的 NiFi)在这些系统之前进行实际(近)实时处理.

我建议使用 Kafka,而不是将点对点指标放入 Hadoop(或相关工具)中。我还鼓励使用适用于此类数据的东西,例如 TimescaleDB、CrateDB 或 InfluxDB,也许 Prometheus 对基础设施进行一些修改......您可以使用 Kafka 摄取到 both Hadoop 和这些其他工具更好地调整以存储此类数据集(这是首先在 Kafka 中“缓冲”数据的好处)

does it make sense if each incoming time series data are written as a parquet format?

当然。如果您想存储大量数据以进行大型批量 分析。但是,如果您按小时对流数据点进行窗口化,并执行求和和平均值等操作,那么您真的需要存储每个数据点吗?

If I use Cassandra, how can I do batch analysis?

好吧,我希望与您目前的做法相同。安排对数据库的查询?希望所有的数据都在那里? (无迟到记录)

关于hadoop - 如何/在哪里可以写入时间序列数据?作为 Hadoop、HBase、Cassandra 的 Parquet 格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54638326/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com