gpt4 book ai didi

hadoop - 什么是适合我索引和处理大数据的工具?

转载 作者:可可西里 更新时间:2023-11-01 14:58:22 24 4
gpt4 key购买 nike

我正在尝试索引和存储大数据,但我对使用什么工具有点困惑。首先让我说我是这里的新手,并且只有关于该主题的理论知识。我想:

1) 使用 Hadoop(绝对)

2) 使用三台不同的 PC 从平面文件中提取日志数据

3) 将数据转换为结构化形式并加载到 HDFS 中以进行索引和 mapreduce。

我的问题是:

a) 在尝试索引三个字段时,是否可以使用 map-index-map-index-map-index-reduce?如果没有,索引是如何完成的?如果可能按顺序解释(例如 index-map-reduce)

b) 从提取到存储应使用哪些正确的工具?

c) 是否可以使用Hadoop进行简单的搜索,还是必须使用lucene/solr等其他工具?

d) 在进入 MapReduce 阶段之前,必须将数据转换为结构化形式,例如使用 PDI?

最佳答案

好吧,如果您希望索引存储在 hadoop 中的一些数据,那么 Cloudera Search 是您的完美用例。链接:http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html

我目前在 Goibibo.com 使用它来索引日志数据。您可以使用它实时索引数据,也可以在 map reduce 模式下使用它。在内部它使用 Solr 来索引并完全适合您的用例。您还可以通过 Hue 公开索引集合。

关于hadoop - 什么是适合我索引和处理大数据的工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29973649/

24 4 0
文章推荐: javascript - Supersleight IE png修复导致溢出问题
文章推荐: 由 Ambari 覆盖的 Hadoop 自定义 - hadoop-env.sh
文章推荐: css - 三列