gpt4 book ai didi

python - Hadoop流式访问目录中的文件

转载 作者:可可西里 更新时间:2023-11-01 14:41:13 25 4
gpt4 key购买 nike

我希望访问 Hadoop 中的一个目录(通过 Python 流)并循环遍历它的图像文件,在我的映射器中计算每个文件的哈希值。以下逻辑是否有意义(而不是硬编码,我可以将目录作为例如 -input 传递给 Hadoop)吗?

lotsdir= 'hdfs://localhost:54310/user/hduser/randomimages/' 
import glob
path = lotsdir + '*.*'
files = glob.glob(path)
files.sort()

imagehashes={}
for fname in files:
imagehashes[fname]=pHash.imagehash( fname )

最佳答案

是的,逻辑是有道理的。

但是您很可能会遇到性能问题,因为您的输入文件不是文本格式,因此它们不会在 HDFS 上正确拆分。

希望 Hadoop 提供多种方法来解决该问题。例如,您可以:

关于python - Hadoop流式访问目录中的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24576064/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com