gpt4 book ai didi

java - 使用 Hadoop MapReduce 将序列号添加到文本文件中的每条记录

转载 作者:可可西里 更新时间:2023-11-01 16:34:29 26 4
gpt4 key购买 nike

我在这里寻找我的简单愚蠢问题的解决方案。比方说,我有一个 10GB 的巨大文本文件,其中的记录以“\n”分隔,我将该文件作为输入提供给 Hadoop 框架。输出应该是一个文件,它保持与输入文件相同的记录顺序,但每条记录前面都有一个序列号。

例如,

如果我有一个输入文本文件说,

this is line one
this is line two
this is line three
this is line four
-----------------
-----------------

输出文件应该是,

1 this is line one
2 this is line two
3 this is line three
4 this is line four
------------------
-----------------

编辑:假设我有一个 10 TB 的文件而不是 10 GB 的文件,那么现在可以做什么?除了使用 Hadoop 方式处理文件之外,还有什么其他最佳方法可以更快地处理文件?

此外,我还想使用多个 reducer 而不是单个 reducer 。

最佳答案

我同意 pap,这里不需要 Hadoop。检查命令nl , 它在文件的每一行之前添加行号。只需将输出存储在一个新文件中。

$ cat testFile
line1
line2
line3

$ nl testFile
1 line1
2 line2
3 line3

关于java - 使用 Hadoop MapReduce 将序列号添加到文本文件中的每条记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10812310/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com