gpt4 book ai didi

apache-spark - 将 Apache Spark 与 HDFS 结合使用与其他分布式存储

转载 作者:行者123 更新时间:2023-12-04 07:20:18 25 4
gpt4 key购买 nike

在 Spark 的 FAQ 上,它特别指出不必使用 HDFS:

Do I need Hadoop to run Spark?

No, but if you run on a cluster, you will need some form of shared file system (for example, NFS mounted at the same path on each node). If you have this type of filesystem, you can just deploy Spark in standalone mode.


那么,如果我不打算使用 Hadoop MapReduce,那么使用带有 HDFS 的 Apache Spark 与其他分布式文件系统(例如 NFS)相比有哪些优点/缺点?如果我将 NFS 而不是 HDFS 用于节点存储(用于检查点、洗牌溢出等),我会丢失一个重要功能吗?

最佳答案

经过几个月的 NFS 和 HDFS 经验,我现在可以回答我自己的问题:

NFS 允许查看/更改远程机器上的文件,就像它们存储在本地机器上一样。
HDFS 也可以这样做,但它是分布式的(与 NFS 相对)并且具有容错性和可扩展性。

使用 NFS 的优点是设置简单,所以我可能会将它用于 QA 环境或小型集群。
HDFS 的优势当然是它的容错性,但恕我直言,更大的优势是当 HDFS 与 Spark 节点位于同一地点时能够利用局部性,这为检查点、随机溢出等提供最佳性能。

关于apache-spark - 将 Apache Spark 与 HDFS 结合使用与其他分布式存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32542719/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com