gpt4 book ai didi

hadoop - 大约多少半结构化数据足以建立 Hadoop 集群?

转载 作者:可可西里 更新时间:2023-11-01 15:07:41 25 4
gpt4 key购买 nike

我知道,Hadoop 不仅是一般半结构化数据处理的替代品——我可以用制表符分隔的普通数据和一堆 unix 工具(cut、grep、sed、...)和手写来做很多事情 python 脚本。但有时我会得到大量数据,处理时间会长达 20-30 分钟。这对我来说是 Not Acceptable ,因为我想动态地试验数据集,运行一些半临时查询等。

那么,根据这种方法的成本-结果,您认为多少数据量足以设置 Hadoop 集群?

最佳答案

不知道你在做什么,这里是我的建议:

  • 如果您想对数据运行临时查询,Hadoop 不是最佳选择。您是否尝试过将数据加载到数据库中并对其运行查询?
  • 如果您想尝试使用 Hadoop 而无需设置集群,请尝试使用 Amazon 的 Elastic MapReduce 产品 http://aws.amazon.com/elasticmapreduce/
  • 我亲眼看到人们使用 shell 脚本来完成这些类型的任务。您是否尝试过使用 SSH 在机器上分发您的工作? GNU Parallel 使这变得非常简单:http://www.gnu.org/software/parallel/

关于hadoop - 大约多少半结构化数据足以建立 Hadoop 集群?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4657195/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com