gpt4 book ai didi

hadoop - 为什么选择 Hadoop 或 Spark?有 Elasticsearch

转载 作者:可可西里 更新时间:2023-11-01 14:42:36 25 4
gpt4 key购买 nike

其实这里也有类似的问题:https://stackoverflow.com/questions/23922404/elasticsearch-hadoop-why-would-i

但答案并不真正令我满意。

我的问题很简单:

  1. 既然有 ElasticSearch,我们为什么要使用 Hadoop 或 Spark?
  2. Hadoop 或 Spark 而 ElasticSearch 没有什么?
  3. 如果算法 是答案,我相信我在创建算法方面并不比 Kimchy 强。在 Hadoop 或 Spark 中,我们需要创建自己的算法。同样,为什么还要使用 Hadoop 或 Spark?
  4. 回答说,“Elasticsearch 是一个分布式搜索引擎,不应该用作数据仓库。”

为什么不应该将其用作数据仓库

谢谢你和最好的问候,

里兹基·苏纳约

最佳答案

我远不是分布式计算方面的专家,但我是不是漏掉了什么,或者你是在比较两个完全不同的东西?

Hadoop 是一个分布式批处理计算平台,可让您运行数据提取和转换管道。 ES 是一个搜索和分析引擎(或数据聚合平台),允许您为搜索目的索引 Hadoop 作业的结果。

所以一个完整的流水线应该是这样的:

数据 --> Hadoop/Spark(MapReduce 或其他范例)--> 精选数据 --> ElasticSearch/Lucene/SOLR/etc.

您可能处于只想提取和/或转换数据而没有使用 elasticsearch 的情况。您还可能遇到数据源不需要分布式批处理范例或不适合分布式批处理范例的情况,在这种情况下,hadoop 对您没有用处。

您可能会感到困惑的是,ES 提供了 elasticsearch-hadoop,可以直接插入 Hadoop 为您提供“一体式”解决方案,可以这么说。

希望比我知识渊博的人也能参与进来。

关于hadoop - 为什么选择 Hadoop 或 Spark?有 Elasticsearch ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29202768/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com