gpt4 book ai didi

logging - HBase 适合存储和查询日志数据吗?

转载 作者:可可西里 更新时间:2023-11-01 14:32:28 26 4
gpt4 key购买 nike


我正在考虑使用 HBase 来存储日志(网络日志数据),每个日志将有大约 20 个不同的值(比方说列),我想运行基于这些列过滤结果的查询。

我最初的想法是在每个列下多次保存每个日志(单元格),这是日志中每个字段的值。这将导致数据大小增加约 20 倍,但我认为这可以很好地提高性能。 Row-key 将是时间戳,前缀是源 ID。
每个源将生成大约 40-100M 日志行(可能有数万个源)。
我还需要低延迟,可能低于 10 秒(因此目前无法选择像 Hive 这样的解决方案)

您认为这是正确的模式设计吗?如果不是,您认为哪个是正确的,或者我应该使用其他东西(什么)?
感谢您的所有回答。

最佳答案

我们正在对网络日志做类似的事情。我们正在做的事情比您提供的案例稍微复杂一些,但我可以看到可能遇到的问题的相似之处。

我们在 hive 中创建了表来存储我们正在收集的各种数据,然后有一个作业来运行查询并将该数据加载到预先聚合的 HBase 中的表中。

这有助于减少数据增加和重复的程度,因为原始数据仅存储一次,然后存储您想要的聚合。使用 Hive 存储原始数据可以更轻松地灵活地按不同维度和数据的各种操作进行聚合。

根据您的具体目标,HBase 可能是存储的唯一要求,但如果目标是聚合和分析数据,我认为 Hive 和 HBase 一起工作会更好。

如果您的结果不需要“实时”,那么仅使用配置单元存储原始数据并根据查询生成报告也可能是一个可接受的解决方案。

我绝不是 HStack 设置的权威资源。我什至不是我们现有系统设计的关键成员。我遇到过这样一种情况,我们无法在 hbase 中存储数据并在保持 hbase 的最佳设置/组织的同时检索它。我们需要存储数据以检索数据的方法会导致其他领域出现很多令人头疼的问题。

我希望我的漫谈能以某种方式提供一些帮助。 :)

关于logging - HBase 适合存储和查询日志数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5721515/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com