gpt4 book ai didi

hadoop - Map reduce value list顺序问题

转载 作者:可可西里 更新时间:2023-11-01 15:19:06 26 4
gpt4 key购买 nike

正如我们所知,Hadoop 按键对值进行分组,并将它们发送到同一个 reduce 任务。假设我在 hdfs 上的文件中有下一行。第 1 行2号线3号线....亚麻在 map task 中,我打印文件名和行。在 reduce 中,我收到了不同的订单。例如 key=> { line3, line1, line2,....}现在,我有下一个问题。我想得到这个值列表,以便它们位于文件中,作为 key =>{ line1, line2,...linen}有什么办法吗?

最佳答案

如果您使用 TextInputFormat ,你会得到一个 <LongWritable, Text>作为映射器输入。 LongWritable部分(或键)是行在文件中的位置(不是行号,而是我认为从文件开始的位置)。您可以使用该部分来跟踪哪一行是第一行。例如,映射器可以输出 <Filename, TextPair(Position, Line)>作为输出而不是 <Filename, Line>就像你现在所做的那样。然后你可以根据 Pair 的第一部分(位置)对 reducer 获得的键进行排序,你应该以相同的顺序返回行。

关于hadoop - Map reduce value list顺序问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7551577/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com