gpt4 book ai didi

python - 如何从多个仅映射任务创建单个分布式内存映射?

转载 作者:可可西里 更新时间:2023-11-01 14:23:59 25 4
gpt4 key购买 nike

我有几个异构输入需要用不同的映射器处理,以生成一个同质映射,之后可以通过单个缩减器的多个实例进行缩减。与连接所有映射器的输出并将它们提供给只会发出与接收到的结果相同的结果的 id-mapper 相比,它是否可以以更优雅的方式完成?我正在使用 Python Hadoop Streaming API,因此它比使用 MultipleInputs Java 接口(interface)要复杂一些。

最佳答案

您正在寻找的是 MultipleInputs 。您应该为不同的异构输入编写不同的映射器。

在您的驱动程序中,您应该将不同的路径映射到它们各自的映射器。

所有这些 mapper 都应该将它们各自的 map 输出转换为将由 reducer 使用的标准输出。

http://bytepadding.com/big-data/map-reduce/multipleinputs-in-map-reduce

关于python - 如何从多个仅映射任务创建单个分布式内存映射?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27523347/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com