gpt4 book ai didi

hadoop - 将单个文件的几行传递给hadoop中相等数量的map

转载 作者:行者123 更新时间:2023-12-02 21:49:45 25 4
gpt4 key购买 nike

我在路径hduser / path / filename中有一个文件说。现在,我想将此文件的前K行分别传递给K张 map 。只需设置

FileInputFormat.setInputPaths(conf, new Path("hduser/path/filename"));

将所有行传递(每个N行都传递到N个 map )。但是我想将其限制为K

最佳答案

你可以:

使用NLineInputFormat(将N行输入拆分为一个拆分)
http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduce/lib/input/NLineInputFormat.html

但是在这种情况下,其余的分割也会被处理....但是每个分割都是N行。

要么

您可以重写Mapper的run方法以控制何时要退出run方法(因此要退出Mapper)。

关于hadoop - 将单个文件的几行传递给hadoop中相等数量的map,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22089366/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com