gpt4 book ai didi

hadoop - 确保 hadoop 跳过某些输入文件的最有效方法是什么?

转载 作者:可可西里 更新时间:2023-11-01 16:34:16 26 4
gpt4 key购买 nike

我有一个 hadoop 应用程序 - 根据参数 - 只需要来自输入目录的某些(很少!)输入文件。我现在的问题是:跳过这些文件的最佳位置(阅读:尽早)在哪里?现在我定制了一个 RecordReader 来处理这个问题,但我想知道我是否可以更快地跳过这些文件?在我目前的实现中,由于不相关的文件,hadoop 仍然有巨大的开销。

也许我应该补充一点,很容易看出我是否需要某个输入文件。如果文件名以参数开头,则需要它。分层构建我的输入目录可能是一种解决方案,但对于我的项目来说不太可能,因为每个文件最终都会单独存放在某个目录中。

最佳答案

我建议您通过在输入 Path 上应用适当的模式来过滤掉输入文件,如下所述:https://stackoverflow.com/a/13454344/1050422
请注意,此解决方案不考虑子目录。改变它能够递归访问基本路径内的所有子目录。

关于hadoop - 确保 hadoop 跳过某些输入文件的最有效方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13462089/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com