gpt4 book ai didi

Hadoop 映射/归约排序

转载 作者:可可西里 更新时间:2023-11-01 16:18:47 24 4
gpt4 key购买 nike

我有一个 map-reduce 作业,我只使用映射器,因为每个映射器的输出肯定会有一个唯一的键。我的问题是当这个作业运行时我得到输出文件,比如 part-m-00000、part-m-00001 ...它们会按键顺序排序吗?

或者我是否需要实现一个 reducer,它什么都不做,只是将它们写入 part-r-00000、part-r-000001 之类的文件。并且这些是否保证输出按键的顺序排序。

最佳答案

如果要对文件内的key进行排序,并保证当i小于j时,文件内的key小于文件j内的key,那么不仅需要reducer,还需要partitioner .你可能想考虑使用像 Pig 这样的东西来做这件事,因为这很简单。如果你想用 MR 做到这一点,使用排序字段作为你的键并编写一个分区程序以确保你的键最终在正确的缩减器中。

关于Hadoop 映射/归约排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13386534/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com