gpt4 book ai didi

python - 如何使用 mrjob 迭代处理一个目录下的所有文件

转载 作者:可可西里 更新时间:2023-11-01 14:16:34 26 4
gpt4 key购买 nike

我正在使用 mrjob 处理一批文件并获取一些统计信息。我知道我可以在单个文件上运行 mapreduce 作业,例如

python count.py < some_input_file > output

但是我怎样才能将文件目录提供给脚本呢?文件目录结构是这样的folder/subfolders/files,有什么建议吗?

最佳答案

好吧,最后我发现我可以指定一个目录作为输入路径,Hadoop 将处理该目录中的所有文件。

此外,在我的例子中,我有包含输入文件的子目录。 Hadoop 不会递归地遍历目录,默认情况下会引发错误。一个常见的技巧是像这样使用通配符 glob

python count.py hdfs://master-host/directory/*/*.txt > result

关于python - 如何使用 mrjob 迭代处理一个目录下的所有文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13762181/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com