gpt4 book ai didi

hadoop - 是否可以从中断的地方重新启动 "killed"Hadoop 作业?

转载 作者:可可西里 更新时间:2023-11-01 14:29:45 24 4
gpt4 key购买 nike

我有一个处理日志文件和报告一些统计数据的 Hadoop 作业。由于文件句柄用完,该作业大约在作业进行到一半时终止。我已经解决了文件句柄的问题,想知道是否可以重新启动“已终止”的作业。

最佳答案

事实证明,没有好的方法可以做到这一点;一旦作业被终止,就无法在第一次失败之前立即重新实例化该作业并重新开始处理。这可能有一些很好的理由,但我没有资格谈论这个问题。

在我自己的案例中,我正在处理大量日志文件并将这些文件加载​​到索引中。此外,我同时创建了一份关于这些文件内容的报告。为了使工作更能容忍索引端的故障(副作用,这与 Hadoop 完全无关)我改变了我的工作,而不是创建许多较小的工作,这些工作中的每一个处理一大块这些日志文件。当这些作业之一完成时,它会重命名已处理的日志文件,以免再次处理它们。每个作业在运行前等待前一个作业完成。

当一个作业失败时,所有后续作业都会很快失败。简单地解决任何问题,然后重新提交我的工作将大体上从中断的地方开始处理。在最坏的情况下,一项工作在失败时已完成 99%,该工作将被错误地和浪费地重新处理。

关于hadoop - 是否可以从中断的地方重新启动 "killed"Hadoop 作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9317046/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com