gpt4 book ai didi

hadoop - 如何在 HDFS 中存储和分析带时间戳的日志

转载 作者:可可西里 更新时间:2023-11-01 15:40:20 26 4
gpt4 key购买 nike

我有很多日志行,每行都有一个时间,我想将它们存储在 HDFS 中并进行分析。我想运行 MapReduce 作业,这些作业将只处理给定时间范围内的行(最后 5 分钟,最后一小时)。

我正在寻找入门指南。并且,任何替代方案(例如,将行存储在 hbase 中?其他平台?)

最佳答案

我的 2 美分:

您可以为此使用 Hbase。读入文件的每一行,取出 TS 字段并将其用作行键,并将该行的其余部分存储在一列中。所以我们的表将只有一列。这将允许您进行更快的范围查询,就像您需要的那样(最后 5 分钟、最后一小时等)。为了避免区域服务器热点,您可以创建预拆分表。

或者,您可以将数据存储在由 TS 分区的 Hive 表中,然后通过 HiveQL 进行处理。或者根据TS对数据进行bucket。简单直接。

HTH

关于hadoop - 如何在 HDFS 中存储和分析带时间戳的日志,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16527962/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com