gpt4 book ai didi

hadoop - 如何同时对大量文件运行 mapreduce 程序?

转载 作者:可可西里 更新时间:2023-11-01 15:26:07 26 4
gpt4 key购买 nike

我正在处理大型数据集并在其上运行 Mapreduce 程序。我可以轻松地在大小约为 3 GB 的单个文件上运行 Mapreduce。知道我想对所有文件运行 mapreduce。是否有任何快捷方式或技术可以直接在所有文件上运行 mapreduce。使用操作系统-UbuntuHadoop-2.7.1

最佳答案

如果您有所有可用的文件,请在 map-reduce 输入参数中指定目录/正则表达式来代替文件名。

示例:bin/hadoop jar wc.jar 字数 /user/joe/wordcount/*.txt/user/joe/wordcount/output

如果您不断获取文件并希望在文件到达时进行处理。您必须一次又一次地运行 map-reduce 作业。因为它是批处理作业。

关于hadoop - 如何同时对大量文件运行 mapreduce 程序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47240471/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com