gpt4 book ai didi

java - 从文件中为hadoop中的映射器创建自定义键值

转载 作者:行者123 更新时间:2023-12-02 21:27:18 26 4
gpt4 key购买 nike

我有一个大小为50MB的文件(不带空格的完整文本数据)。我想以每个映射器应获取5MB数据的方式对数据进行分区。映射器应以(K,V)格式获取数据,其中键-分区号(如1,2,..),值是纯文本(5MB)。

我读了InputFormat (method getSplits)FileInputFormat (FileSplit method)RecordReader,但不明白如何生成和使用拆分为映射器创建所需的自定义(K,V)。我是Hadoop MapReduce编程的新手,因此,建议我在这种情况下如何进行。

最佳答案

您可以在配置中以字节为单位设置mapreduce.input.fileinputformat.split.maxsize,以告诉映射器您应该获得5MB的数据。

关于java - 从文件中为hadoop中的映射器创建自定义键值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35474409/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com