gpt4 book ai didi

Hadoop 数据节点经常挂掉

转载 作者:可可西里 更新时间:2023-11-01 16:14:56 25 4
gpt4 key购买 nike

我们的 Hadoop 集群是一个由 5 个数据节点和 2 个名称节点组成的集群。流量实际上非常高,一些节点经常宕机。但是过了一会儿他们又回来了。有时需要很长时间,半个多小时才能活着回来。

很少有 DN 的线程比其他的多。这是配置问题吗?数据不是写入密集型的。 MR 作业每 20 分钟运行一次。

运行健康监控器两天后,每隔半小时采样一次,我们了解到节点在每 6 小时运行一次的磁盘验证期间死亡。所以现在节点可以预见地死亡。但为什么他们在磁盘验证期间死亡?无论如何,有没有办法防止节点在磁盘验证期间死亡??

最佳答案

Clouedera's capacity planning给出了对此的见解。如果您在重负载下看到“Bad connect ack with firstBadLink”、“Bad connect ack”、“No route to host”或“Could not obtain block”IO 异常,这些很可能是由于网络不良造成的。

关于Hadoop 数据节点经常挂掉,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23516112/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com