gpt4 book ai didi

database - 存储和解析文本日志和报告的理想系统

转载 作者:可可西里 更新时间:2023-11-01 14:54:49 25 4
gpt4 key购买 nike

我有很多来自运行网络测试的文本报告和日志文件。我想将这些报告和日志存储在一个数据存储中,我可以在其中解析它们并根据解析的数据运行报告。我还希望这个系统是可扩展的,无论是在它接受的报告和日志类型方面,还是在它可以使用的数据量和查询/报告方面。

一位同事建议 Hadoop 可以满足这一需求,而我组织中的另一个团队表示他们将 Cassandra 用于类似的项目(但数据更多,大部分它是机器生成的)。我一直在阅读有关 Hadoop 和 Cassandra 的文章,我真的不确定使用类似的东西是否会矫枉过正,以及为每种日志/报告类型使用自定义解析器的关系数据库是否会更理智.

根据我对 Hadoop 的理解,无论如何我都需要编写 MapReduce 函数来解析每种类型的输入数据,我认为我需要做一些事情如果我使用 Cassandra,则类似。我也阅读了一些关于 Hive 的内容,听起来它可能有用,但我没有深入研究它。

在我的情况下使用 Hadoop 或 Cassandra(或其他东西)有什么好处(如果有的话)?

如有任何建议,我们将不胜感激。

最佳答案

这是我从您的问题描述中得到的:

  • 您有一些生成日志和文本报告的测试程序。您能否至少大致了解一下这些数据的大小?
  • 您想在数据生成后对其进行分析(即不需要进行实时分析)
  • 您希望在可以摄取和处理的数据大小以及可以执行的查询和分析类型方面具有灵 active

这里有一些关于您提到的工具的见解和注意事项:

  • 鉴于已配置 Hadoop 集群,Hive 可能是最简单的解决方案:它可以让您将数据视为一组表:SQL 查询、连接等……Hive 是(大致)集群越大越快,但您不会立即得到答案:换句话说,您可以将其用于批处理操作,而不是用于交互式 Web 面板和类似的东西。

  • Cassandra 可用于存储大量数据。它易于扩展,功能强大且相对易于使用。考虑到您的要求,我认为可能需要考虑的是,它需要非常全面地考虑您将用于存储数据的模式:模式将决定您之后可以做什么和不能做什么。因此,如果您想执行更广泛的分析,或以您今天无法想象的新方式读取数据,结果可能是您做不到,因为数据在数据库中的存储方式。

我不太熟悉的其他选项:HBase(基于 HDFS 的数据存储)、Pig(与 Hive 一样,查询被编译成 Hadoop 作业;改变的是模型:您需要编写“流”而不是 SQL 查询).

我建议尝试使用 Hive(或 Pig),也许使用 Amazon EMR 之类的服务(这样您就可以避免 Hadoop 集群设置的麻烦)。

关于database - 存储和解析文本日志和报告的理想系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15235907/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com