gpt4 book ai didi

hadoop - 不寻常的 Hadoop 错误 - 任务自行终止

转载 作者:可可西里 更新时间:2023-11-01 14:16:56 27 4
gpt4 key购买 nike

当我运行 hadoop 作业时,出现以下错误:

收到用户终止任务“attempt_201202230353_23186_r_000004_0”的请求任务已被用户 KILLED_UNCLEAN

日志看起来很干净。我运行了 28 个 reducer ,但并不是所有的 reducer 都会出现这种情况。它发生在选定的少数人身上, reducer 再次启动。我不明白这一点。我还注意到的另一件事是,对于一个小数据集,我很少看到这个错误!

最佳答案

可以尝试三件事:

设置计数器
如果 Hadoop 看到工作进展的计数器,那么它不会杀死它(参见 Arockiaraj Durairaj 的回答。)这似乎是最优雅的让您更深入地了解长时间运行的作业,以及挂断可能是什么。

更长的任务超时
默认情况下,Hadoop 作业在 10 分钟后超时。更改超时有点蛮力,但可以工作。想象一下分析通常为 5MB 文件(歌曲)的音频文件,但您有几个 50MB 文件(整个专辑)。 Hadoop 每个 block 存储一个单独的文件。因此,如果您的 HDFS block 大小为 64MB,那么一个 5MB 的文件和一个 50MB 的文件都需要 1 个 block (64MB)(参见此处 http://blog.cloudera.com/blog/2009/02/the-small-files-problem/ 和此处 Small files and HDFS blocks。)但是,5MB 的作业将比 50MB 的作业运行得更快工作。根据对以下类似问题的回答,可以在作业的代码 (mapred.task.timeout) 中增加任务超时:How to fix "Task attempt_201104251139_0295_r_000006_0 failed to report status for 600 seconds."

增加任务尝试次数
将 Hadoop 配置为进行超过 4 次默认尝试(请参阅 Pradeep Gollakota 的回答)。这是三种方法中最暴力的方法。 Hadoop 会多次尝试这项工作,但您可能会掩盖潜在的问题(小型服务器、大型数据 block 等)。

关于hadoop - 不寻常的 Hadoop 错误 - 任务自行终止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9506176/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com