作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们正在尝试Hadoop和Common Crawl的处理。
我们的问题是,如果我们创建一个包含1个Master
节点,1个Core
和2个Task
节点的集群,则每个组中只有一个节点会获得较高的CPU /网络使用率。
我们还尝试了2个Core
和没有Task
节点,但是在这种情况下,也只使用了一个Core
节点。
以下是“节点/集群”监视的一些屏幕截图。作业一直在运行(在前两个并行映射阶段中),并且应该已经使用了大部分可用的CPU能力,如工作Task
节点的屏幕快照所示。
但是为什么不使用空闲的Task
节点呢?
我们的hadoop作业作为Jar
步骤运行,对 map 作业没有限制。它由多个链接的映射/减少步骤组成。最后的reduce作业仅限于一个Reducer。
屏幕截图:
https://drive.google.com/drive/folders/1xwABYJMJAC_B0OuVpTQ9LNSj12TtbxI1?usp=sharing
ClusterId:j-3KAPYQ6UG9LU6
StepId:s-2LY748QDLFLM9
在其他运行期间,我们在空闲节点的系统日志中找到以下内容,也许这是EMR问题?
ERROR main: Failed to fetch extraInstanceData from https://aws157-instance-data-1-prod-us-east-1.s3.amazonaws.com/j-2S62KOVL68GVK/ig-3QUKQSH7YJIAU.json?X-Amz-Algorithm=AWS4-HMAC-SHA256&X
最佳答案
聚会晚了,但是您尝试将这些属性设置为spark Submit命令的一部分。
--conf 'spark.dynamicAllocation.enabled=true'
--conf 'spark.dynamicAllocation.minExecutors=<MIN_NO_OF_CORE_OR_TASK_NODES_YOU_WANT>'
关于amazon-web-services - EMR Hadoop并未利用所有群集节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47911012/
我是一名优秀的程序员,十分优秀!