gpt4 book ai didi

hadoop - 如何让Hadoop Pig Job更可靠?

转载 作者:可可西里 更新时间:2023-11-01 16:16:27 26 4
gpt4 key购买 nike

我有一个 pig 作业,计划每天通过 Hadoop 作业调度程序运行。它有时工作得很好,但偶尔会因以下错误而失败。每天它都会报告不同的失败原因。

第一天:

Error: java.io.IOException: No space left on device

第 2 天:

ENOENT: No such file or directory

第三天:

Lost task tracker: tracker_bos-hadoop14.co.com:localhost/127.0.0.1:48865

第 4 天:

Lost task tracker: tracker_bos-hadoop11.co.com:localhost/127.0.0.1:46408

请提出让我的工作更可靠、更有弹性地应对此类问题的方法。

是否有任何最佳实践来处理此类 hadoop 故障?

最佳答案

前两条有点相关 - 如果磁盘空间不足,当它无法在本地磁盘上更改任务文件夹时(在 mkdir 由于缺少空格)。

后两个您需要检查运行 TaskTracker 的节点中的任务跟踪器日志。

如果没有进一步了解你的 pig 作业是做什么的,或者它处理了多少数据(输入和输出),我的猜测是你可能需要扩展你的集群(如果你正在运行伪分布式),或者看看你在洗牌阶段的数据分布——你的大部分键值对都进入一个单一的 reducer ,你能修改 reducer 的数量或你的算法来减少被洗牌的数据量吗?)

关于hadoop - 如何让Hadoop Pig Job更可靠?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19807117/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com