gpt4 book ai didi

apache-spark - 具有太多可抢占节点的 Google dataproc spark 集群有时会挂起

转载 作者:可可西里 更新时间:2023-11-01 16:36:29 26 4
gpt4 key购买 nike

当在只有 2 个不可抢占的工作节点和其他 100~ 个可抢占节点的 dataproc 上运行 spark 集群时,我有时会得到一个完全不可用的集群,原因是太多的连接错误、数据节点错误、丢失的执行程序,但仍在跟踪心跳...总是出现这样的错误:

18/08/08 15:40:11 WARN org.apache.hadoop.hdfs.DataStreamer: Error Recovery for BP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487 in pipeline [DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK], DatanodeInfoWithStorage[10.128.0.7:9866,DS-9f1d8b17-0fee-41c7-9d31-8ad89f0df69f,DISK]]: datanode 0(DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK]) is bad.

错误报告 Slow ReadProcessor read fields for block BP-877400388-10.128.0.31-1533740979408:blk_1073742314_1494

据我所见,这些集群似乎无法正常运行,但没有任何报告表明这一点。

另外,application master 也是在可抢占节点上创建的,这是为什么?

最佳答案

根据documentation ,可抢占的工作人员数量需要少于集群中节点总数的 50% 才能获得最佳结果。关于抢占节点内的application master,可以report通过为 Dataproc 填写问题跟踪器来实现此行为.

关于apache-spark - 具有太多可抢占节点的 Google dataproc spark 集群有时会挂起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51750785/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com