gpt4 book ai didi

java - Hadoop 永远占领 EMR 和分析 EMR

转载 作者:行者123 更新时间:2023-12-01 14:37:41 25 4
gpt4 key购买 nike

我正在 S3 上运行一个超过 500 个文档的示例 hadoop 作业,在本地运行时需要 <15 分钟才能完成。然而,当我尝试在 EMR 上运行相同的作业时,需要两个多小时,但仍然没有完成缩减步骤,因此我终止了它。 MapReduce 作业在 EMR 上花费如此长的时间是否有特殊原因?

此外,同样,分析 EMR 以了解瓶颈所在的最佳方法是什么?在 reducer 完成之前我似乎无法从它们获取日志文件,但它们需要很长时间才能完成..

最佳答案

根据我使用 AWS EMR 的经验,我发现内存设置(分配给映射或归约任务的内存量)、为任务分配的总体 RAM 以及堆大小配置对性能起着很大的作用。下面的链接包含一些信息,Google 搜索应该会显示其余信息。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html

关于java - Hadoop 永远占领 EMR 和分析 EMR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16327375/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com