gpt4 book ai didi

python - Hadoop流作业执行中映射器的“Text file busy”错误

转载 作者:行者123 更新时间:2023-12-02 21:45:10 25 4
gpt4 key购买 nike

我有一个创建文本文件的应用程序,每个文本文件只有一行,然后将其转储到hdfs。
该位置又被用作hadoop流作业的输入目录。

期望的是,映射程序的数量将等于“输入文件分割”,它等于我的情况下的文件数量。某些未触发所有映射器的方式,我在流输出转储中看到一个奇怪的问题:

引起原因:java.io.IOException:无法运行程序“/mnt/var/lib/hadoop/tmp/nm-local-dir/usercache/hadoop/appcache/application_1411140750872_0001/container_1411140750872_0001_01_000336/./CODE/python_mapper_unix.py”:错误= 26,文本文件忙

“python_mapper.py”是我的映射器文件。

环境详细信息:
一个40节点aws r3.xlarge AWS EMR集群[此集群上没有其他作业运行]
当此流媒体jar运行时,群集上没有其他作业在运行,因此,任何外部进程都不应尝试打开“python_mapper.py”文件

这是流jar命令:

ssh -o StrictHostKeyChecking =否-i hadoop @ hadoop jar /home/hadoop/contrib/streaming/hadoop-streaming.jar-文件​​CODE-文件CODE / congfiguration.conf -mapper CODE / python_mapper.py -input / user / hadoop / launchidlworker / input / 1-输出/ user / hadoop / launchidlworker / output / out1 -numReduceTasks 0

最佳答案

您能否先尝试使用“stop-all”停止所有守护程序,然后在重新启动守护程序(使用“start-all”)之后重新运行MR作业?

让我们看看是否有帮助!

关于python - Hadoop流作业执行中映射器的“Text file busy”错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25963463/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com