gpt4 book ai didi

amazon-web-services - EMR Hadoop并未利用所有群集节点

转载 作者:行者123 更新时间:2023-12-02 20:46:17 26 4
gpt4 key购买 nike

我们正在尝试Hadoop和Common Crawl的处理。

我们的问题是,如果我们创建一个包含1个Master节点,1个Core和2个Task节点的集群,则每个组中只有一个节点会获得较高的CPU /网络使用率。
我们还尝试了2个Core和没有Task节点,但是在这种情况下,也只使用了一个Core节点。

以下是“节点/集群”监视的一些屏幕截图。作业一直在运行(在前两个并行映射阶段中),并且应该已经使用了大部分可用的CPU能力,如工作Task节点的屏幕快照所示。
但是为什么不使用空闲的Task节点呢?

我们的hadoop作业作为Jar步骤运行,对 map 作业没有限制。它由多个链接的映射/减少步骤组成。最后的reduce作业仅限于一个Reducer。

屏幕截图:
https://drive.google.com/drive/folders/1xwABYJMJAC_B0OuVpTQ9LNSj12TtbxI1?usp=sharing

ClusterId:j-3KAPYQ6UG9LU6
StepId:s-2LY748QDLFLM9
在其他运行期间,我们在空闲节点的系统日志中找到以下内容,也许这是EMR问题?

ERROR main: Failed to fetch extraInstanceData from https://aws157-instance-data-1-prod-us-east-1.s3.amazonaws.com/j-2S62KOVL68GVK/ig-3QUKQSH7YJIAU.json?X-Amz-Algorithm=AWS4-HMAC-SHA256&X

问候
卢卡斯

最佳答案

聚会晚了,但是您尝试将这些属性设置为spark Submit命令的一部分。

--conf 'spark.dynamicAllocation.enabled=true' 
--conf 'spark.dynamicAllocation.minExecutors=<MIN_NO_OF_CORE_OR_TASK_NODES_YOU_WANT>'

关于amazon-web-services - EMR Hadoop并未利用所有群集节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47911012/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com