Hadoop 推测任务执行-6ren

Hadoop 推测任务执行

转载作者：可可西里更新时间：2023-11-01 14:07:14

在Google的MapReduce论文中，他们有一个备份任务，我认为这与Hadoop中的推测任务是一回事。推测任务是如何实现的？当我开始一个推测性任务时，该任务是从最开始的较旧的缓慢任务开始，还是从较旧的任务到达的地方开始(如果是这样，它是否必须复制所有中间状态和数据？)

最佳答案

Hadoop 系统的一个问题是，通过将任务划分到多个节点，少数慢速节点可能会限制程序其余部分的速率。

任务可能由于各种原因而变慢，包括硬件性能下降或软件配置错误，但原因可能很难检测到，因为任务仍然成功完成，尽管时间比预期的要长。 Hadoop 不会尝试诊断和修复运行缓慢的任务；相反，它会尝试检测任务运行速度何时比预期慢，并启动另一个等效任务作为备份。这称为任务的推测执行。

例如，如果一个节点的磁盘 Controller 速度较慢，那么它读取输入的速度可能仅为所有其他节点的 10%。所以当99个map任务已经完成时，系统还在等待最后一个map任务的check in，这个时间比其他所有节点都要长很多。

通过强制任务彼此隔离运行，单个任务不知道它们的输入来自哪里。任务信任 Hadoop 平台来提供适当的输入。因此，可以并行处理相同的输入多次，以利用机器能力的差异。当作业中的大部分任务即将结束时，Hadoop 平台将在没有其他工作要执行的多个节点上调度剩余任务的冗余副本。此过程称为推测执行。当任务完成时，他们向 JobTracker 宣布这一事实。任务的最先完成的副本成为最终副本。如果其他副本正在推测性地执行，Hadoop 会告诉 TaskTrackers 放弃任务并丢弃它们的输出。然后，Reducers 首先从成功完成的 Mapper 接收输入。

默认情况下启用推测执行。您可以通过将 mapred.map.tasks.speculative.execution 和 mapred.reduce.tasks.speculative.execution JobConf 选项设置为 false 来禁用映射器和缩减器的推测执行，分别使用旧 API，而使用较新的 API，您可以考虑更改 mapreduce.map.speculative 和 mapreduce.reduce.speculative。

因此，回答您的问题确实是重新开始，与其他任务完成/完成的程度无关。

引用:http://developer.yahoo.com/hadoop/tutorial/module4.html

关于Hadoop 推测任务执行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15164886/