gpt4 book ai didi

hadoop - Spark 是否会在数据所在的相同节点上安排工作人员?

转载 作者:可可西里 更新时间:2023-11-01 14:26:37 25 4
gpt4 key购买 nike

Google MapReduce 论文称,workers 被安排在与数据所在的同一节点上,或者如果可能的话,至少在同一机架上。我没有通读整个 Hadoop 文档,但我假设它会尽可能将计算移至数据,而不是将数据移至计算。

(我刚开始接触Hadoop的时候,从HDFS到worker的所有数据都必须通过TCP连接,即使worker和数据在同一个节点上。现在还是这样吗?)

无论如何,使用 Apache Spark 时,worker 会被安排在与数据相同的节点上,还是 RDD 概念会使其更难做到这一点?

最佳答案

一般来说,这取决于。 Spark 识别多个位置级别(包括 PROCESS_LOCALNODE_LOCALRACK_LOCAL)并尝试调度任务以达到最佳位置级别。参见 Data LocalityTuning Spark

可以使用 spark.locality.* 属性控制确切的行为。它包括调度程序在选择位置较低的节点之前等待空闲资源的时间量。参见 SchedulingSpark Configuration .

关于hadoop - Spark 是否会在数据所在的相同节点上安排工作人员?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33601715/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com