gpt4 book ai didi

hadoop - Apache Spark 如何实现比 Hadoop MapReduce 快 100 倍的速度以及在什么场景下?

转载 作者:可可西里 更新时间:2023-11-01 15:05:03 25 4
gpt4 key购买 nike

Apache Spark [ http://spark.apache.org/]声称在内存方面比 Apache Hadoop 快 100 倍。它是如何实现这种惊人的加速的?这种加速仅适用于迭代机器学习算法还是适用于 ETL(提取-转换-加载)任务,如 JOIN 和 GROUPBY? Spark 的 RDD(弹性分布式数据集)和 DataFrames 都可以提供这种加速吗? Spark社区有针对上述部分场景的benchmark测试结果吗?

最佳答案

  1. Spark 在内存中进行数据处理。
  2. 不会像 Map Reduce 那样有中间文件,所以没有 I/O 或者可以忽略不计。
  3. 它并没有在所有情况下都快 100 倍,尤其是涉及连接和排序时。
  4. 由于它是内存密集型的,它可以很快使集群饱和。在给定的时间点,您可能能够以快 100 倍的速度运行一项作业,但无法运行与使用传统 hadoop 方法所能运行的一样多的作业/应用程序。
  5. RDD 和数据帧是内部数据结构,可以方便地处理数据。 RDD 是数据的内存数据结构,数据帧主要是这些 RDD 的元数据。它们更像是 spark 中的数据表示。

这些声明中的大多数都没有针对真实的生产用例进行基准测试。可以代表实际业务应用程序的数据可能有数量,但没有质量。 Spark 可以非常方便地用于流分析,您希望在其中近乎实时地了解数据。但对于真正的批处理,Hadoop 可能是更好的解决方案,尤其是在商用硬件上。

关于hadoop - Apache Spark 如何实现比 Hadoop MapReduce 快 100 倍的速度以及在什么场景下?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34099988/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com