gpt4 book ai didi

Hadoop Streaming 和多个 reducer 步骤,每个步骤之间没有映射器

转载 作者:可可西里 更新时间:2023-11-01 14:23:35 28 4
gpt4 key购买 nike

我正在解决如何多次排序我的数据而不必每次都返回映射器的问题。

我想设置:mapper 1 --> reducer 1 ---> reducer 2 ---> reducer 3

我想让 reducer 1 输出(键、数据),然后让它直接进入 reducer 2...这可能吗?

我从故障排除中了解到您可以链接作业,但这需要每个步骤都有一个映射器吗?

每当我尝试在没有映射器的情况下运行时,它都会以错误结束。如果我可以根据需要从 reducer 1 输出它,那么为每个步骤运行映射器似乎会浪费时间/资源。

想法?

最佳答案

简而言之,如果您使用的是 Java,那么您需要 ChainReducer 和 ChainMapper。使用这些类,您可以按任何顺序在链中添加任意数量的缩减器或映射器。

“Hadoop in Action”一书在第 5 章中描述了这个过程。

关于Hadoop Streaming 和多个 reducer 步骤,每个步骤之间没有映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12378360/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com