gpt4 book ai didi

hadoop - Spark 工作负载是否需要 HDFS?

转载 作者:可可西里 更新时间:2023-11-01 14:22:01 33 4
gpt4 key购买 nike

HDFS 不是必需的,但建议出现在某些地方。

为了帮助评估让 HDFS 运行所花费的努力:

将 HDFS 用于 Spark 工作负载有哪些好处?

最佳答案

Spark 是分布式处理引擎,HDFS 是分布式存储系统。

如果 HDFS 不是一个选项,那么 Spark 必须使用 Apache Cassandra 或 Amazon S3 形式的其他替代方案。

看看这个comparision

S3 – 非紧急批处理作业。当数据局部性不重要时,S3 适合非常具体的用例。

Cassandra – 非常适合流数据分析和批处理作业。

HDFS – 非常适合批处理作业,不会影响数据局部性。

什么时候使用 HDFS 作为 Spark 分布式处理的存储引擎?

  1. 如果您已经拥有大型 Hadoop 集群 并希望对您的数据进行实时分析,Spark 可以使用现有的 Hadoop 集群。它将减少开发时间。

  2. Spark 是内存计算引擎。由于数据不能始终适合内存,因此必须将数据溢出到磁盘以进行某些操作。在这种情况下,Spark 将从 HDFS 中受益。 Spark实现的Teragen排序记录使用HDFS存储进行排序操作。

  3. HDFS 是可扩展、可靠且容错的分布式文件系统(自 Hadoop 2.x 版本起)。采用数据局部性原则,提高处理速度。

  4. 最适合批处理 作业。

关于hadoop - Spark 工作负载是否需要 HDFS?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32669187/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com