gpt4 book ai didi

apache-spark - Spark : hdfs cluster mode

转载 作者:行者123 更新时间:2023-12-04 04:10:23 25 4
gpt4 key购买 nike

我刚刚开始使用 Apache Spark。我正在使用集群模式(master、slave1、slave2),我想处理一个保存在 Hadoop (hdfs) 中的大文件。我正在使用 SparkContext 中的 textFile 方法;在处理文件时,我监控节点,我可以看到只有 slave2 在工作。处理后,slave2有任务,slave1没有任务。如果我不使用 hdfs 而使用本地文件,那么两个从属服务器会同时工作。我不明白为什么会出现这种行为。拜托,任何人都可以给我一个线索吗?

最佳答案

该行为的主要原因是数据局部性 的概念。当 Spark 的 Application Master 请求创建新的执行器时,会尝试将它们分配到数据所在的同一节点。

即在您的情况下,HDFS 很可能已将文件的所有 block 写入同一节点上。因此 Spark 将在该节点上实例化执行程序。相反,如果您使用本地文件,它将出现在所有节点中,因此数据局部性将不再是问题。

关于apache-spark - Spark : hdfs cluster mode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37589917/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com