gpt4 book ai didi

client - Hadoop:提交作业后客户端的高 CPU 负载

转载 作者:可可西里 更新时间:2023-11-01 15:19:06 25 4
gpt4 key购买 nike

我在浏览一些 Hadoop 指南时找不到问题的答案:我正在通过客户端计算机上的 shell 脚本一次性提交各种 Hadoop 作业(最多 200 个)。每个作业都通过一个 JAR(相当大;大约 150 MB)启动。提交作业后,客户端计算机的 CPU 负载非常高(每个内核都在 100%),并且 RAM 很快变满。这样,客户端就不再可用了。我认为每个作业的计算完全在Hadoop框架内完成,作业运行时集群和客户端之间只交换一些状态信息。

那么,为什么客户端会完全拉伸(stretch)?我是否以错误的方式提交 Hadoop 作业?每个 JAR 是否太大?

提前致谢。

最佳答案

这与 jar 无关。客户端正在计算 InputSplits。因此,当每个作业都有大量输入文件时,客户端机器可能会承受大量负载。但我猜当提交 200 个作业时,jobtracker 上的 RPC 处理程序有一些问题。有多少 RPC 处理程序在 jobtracker 上处于事件状态?

无论如何,我会一次批量提交最多 10 或 20 个作业,然后等待它们完成。我猜你有默认的 FIFO 调度程序?因此,您也不会从一次提交所有 200 个职位中受益。

关于client - Hadoop:提交作业后客户端的高 CPU 负载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7546064/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com