amazon-web-services - EMR Hadoop并未利用所有群集节点-6ren

amazon-web-services - EMR Hadoop并未利用所有群集节点

转载作者：行者123 更新时间：2023-12-02 20:46:17

我们正在尝试Hadoop和Common Crawl的处理。

我们的问题是，如果我们创建一个包含1个Master节点，1个Core和2个Task节点的集群，则每个组中只有一个节点会获得较高的CPU /网络使用率。
我们还尝试了2个Core和没有Task节点，但是在这种情况下，也只使用了一个Core节点。

以下是“节点/集群”监视的一些屏幕截图。作业一直在运行(在前两个并行映射阶段中)，并且应该已经使用了大部分可用的CPU能力，如工作Task节点的屏幕快照所示。
但是为什么不使用空闲的Task节点呢？

我们的hadoop作业作为Jar步骤运行，对 map 作业没有限制。它由多个链接的映射/减少步骤组成。最后的reduce作业仅限于一个Reducer。

屏幕截图:
https://drive.google.com/drive/folders/1xwABYJMJAC_B0OuVpTQ9LNSj12TtbxI1?usp=sharing

ClusterId:j-3KAPYQ6UG9LU6
StepId:s-2LY748QDLFLM9
在其他运行期间，我们在空闲节点的系统日志中找到以下内容，也许这是EMR问题？

ERROR main: Failed to fetch extraInstanceData from https://aws157-instance-data-1-prod-us-east-1.s3.amazonaws.com/j-2S62KOVL68GVK/ig-3QUKQSH7YJIAU.json?X-Amz-Algorithm=AWS4-HMAC-SHA256&X

问候
卢卡斯

最佳答案

聚会晚了，但是您尝试将这些属性设置为spark Submit命令的一部分。

--conf 'spark.dynamicAllocation.enabled=true' 
--conf 'spark.dynamicAllocation.minExecutors=<MIN_NO_OF_CORE_OR_TASK_NODES_YOU_WANT>'

关于amazon-web-services - EMR Hadoop并未利用所有群集节点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47911012/

文章推荐： hadoop - HDFS基准测试-Terasort输出记录数

文章推荐： hadoop - Netezza实用程序NZLOAD将-df位置指向hdfs位置

文章推荐： docker - “Can not connect to Docker Daemon”

文章推荐： hadoop - hive 表的Kylin同步问题

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

amazon-web-services - EMR Hadoop并未利用所有群集节点