gpt4 book ai didi

performance - Hadoop 是否适合为 50GB 数据集中的 100 字节记录提供服务?

转载 作者:可可西里 更新时间:2023-11-01 16:34:28 25 4
gpt4 key购买 nike

我们有一个问题,Hadoop 是否适合不需要运行应用程序但需要非常快速地读取和写入少量数据的简单任务。

要求是能够以每秒 30 次的速度写入带有几个索引的大约 100-200 字节长的消息,同时能够以大约每秒 10 次的速度读取(通过这两个索引进行搜索)秒。读取查询必须非常快 - 每个查询最多 100-200 毫秒并返回少量匹配记录。

总数据量预计将达到 50-100 GB,并通过删除较旧的记录来维持此速度(类似于删除超过 14 天的记录的日常任务)

如您所见,总数据量并没有那么大,但我们担心 Hadoop 的搜索速度无论如何都可能比我们需要的慢。

Hadoop 是解决这个问题的方法吗?

谢谢尼克

最佳答案

单独使用 Hadoop 非常不擅长处理许多小数据段。然而,HBase 是一个类似于索引表数据库的系统,旨在运行在 Hadoop 之上。它非常擅长提供小型索引文件。我会研究它作为解决方案。

另一个需要注意的问题是将数据导入 HDFS 或 HBase 并非易事。它会使您的集群变慢很多,因此如果您选择 Hadoop,您还必须解决如何将这 75GB 存储到 HDFS 以便 Hadoop 可以访问它们。

关于performance - Hadoop 是否适合为 50GB 数据集中的 100 字节记录提供服务?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11053578/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com