gpt4 book ai didi

file - 获取文件名和内容,然后用mapreduce合并到另一个文件中

转载 作者:可可西里 更新时间:2023-11-01 15:57:42 25 4
gpt4 key购买 nike

我有几个包含数据的文件。
例如:file01.csv 包含 x 行,file02.csv 包含 y 行。

我想用 mapreduce 处理和合并它们,以便得到一个文件,其中 x 行以 file01 开头,然后是行内容,yfile02 开头的文件,然后是行内容。

我这里有两个问题:

  • 我知道如何通过设置 FileInputFormat.setInputPath(job, new Path(inputFile)); 来使用 mapreduce 从文件中获取行;但我不明白如何获取文件夹中每个文件的行。
  • 一旦我的映射器中有了这些行,我如何才能访问相应的文件名,以便创建我想要的数据?

感谢您的考虑。

琥珀色

最佳答案

在您的情况下,您不需要 map-reduce。那是因为您想保留结果文件中的行顺序。在这种情况下,单线程处理会更快。

只需使用如下代码运行 java 客户端:

FileSystem fs = FileSystem.get();
OutputStream os = fs.create(outputPath); // stream for result file
PrintWriter pw = new PrintWriter(new OutputStreamWriter(os));

for (String inputFile : inputs) { // reading input files
InputStream is = fs.open(new Path(inputFile));
BufferedReader br = new BufferedReader(new InputStreamReader(is));
String line;
while ((line = br.readLine()) != null) {
pw.println(line);
}
br.close();
}

pw.close();

关于file - 获取文件名和内容,然后用mapreduce合并到另一个文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41610710/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com