gpt4 book ai didi

hadoop - 没有hadoop apache spark可以运行吗?

转载 作者:可可西里 更新时间:2023-11-01 14:06:21 25 4
gpt4 key购买 nike

SparkHadoop 之间是否存在依赖关系?

如果没有,当我在没有 Hadoop 的情况下运行 Spark 时,是否会错过任何功能?

最佳答案

Spark 是一种内存分布式计算引擎。

Hadoop 是分布式存储 (HDFS) 和分布式处理 (YARN) 的框架。

Spark 可以在有或没有 Hadoop 组件 (HDFS/YARN) 的情况下运行


分布式存储:

由于Spark没有自己的分布式存储系统,它不得不依赖其中一个存储系统进行分布式计算。

S3 – 非紧急批处理作业。当数据局部性不重要时,S3 适合非常具体的用例。

Cassandra – 非常适合流数据分析和批处理作业。

HDFS – 非常适合批处理作业,而不会影响数据局部性。


分布式处理:

您可以在三种不同的模式下运行 Spark:Standalone、YARN 和 Mesos

查看下面的 SE 问题,了解有关分布式存储和分布式处理的详细说明。

Which cluster type should I choose for Spark?

关于hadoop - 没有hadoop apache spark可以运行吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32022334/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com