gpt4 book ai didi

hadoop - MrJob 花费大量时间 Copy local files into hdfs

转载 作者:可可西里 更新时间:2023-11-01 15:31:05 27 4
gpt4 key购买 nike

我遇到的问题是:已经将我的 input.txt (50MBytes) 文件放入 HDFS,我正在运行

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop 

MrJob 似乎花了很多时间将文件复制到 hdfs(又是?)

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

这符合逻辑吗?它不应该直接从 HDFS 使用 input.txt 吗?

(使用 Hadoop 版本 2.6.0)

最佳答案

查看hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/的内容,你会看到input.txt 不是被复制到 HDFS 中的文件。

正在复制的是 mrjob 的整个 python 目录,以便它可以在您的每个节点上解压缩。 (mrjob 假定 mrjob 未安装在集群中的每个节点上。)

关于hadoop - MrJob 花费大量时间 Copy local files into hdfs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32807358/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com