gpt4 book ai didi

hadoop - 如何在Hadoop中仅转换大小写?

转载 作者:行者123 更新时间:2023-12-02 20:12:47 26 4
gpt4 key购买 nike

我是hadoop mapreduce的新手。我想开发mapreduce代码以小写形式转换文件的文本。但是具有与文件中更早的顺序。这意味着按文件的实际顺序而不是类似于单词计数数据序列。

最佳答案

只需逐行读取文件,然后将其作为键值 << LineNumber,UPPERCASEOFLINE >> 发出,因此每行的大写字母将成为化简器的值(仅包含一个元素的列表)。

现在,您要做的就是将值(每个键的单行)作为reducer的发出,您可以将reducer的设置为NullWritable。

映射器中的 LineNumber 对于每行输入均以1增量开始。
还重写isSplitable()以返回false,以使一个映射器完全处理一个文件。

关于hadoop - 如何在Hadoop中仅转换大小写?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11643874/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com