gpt4 book ai didi

hadoop - 在 Google Cloud Dataproc 环境中使用 Hadoop 流运行 python map reduce 作业时出错

转载 作者:可可西里 更新时间:2023-11-01 15:09:47 27 4
gpt4 key购买 nike

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业。我的 map reduce python 脚本、输入文件和作业结果输出位于 Google 云存储中。

我试着运行这个命令

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -mapper gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -file gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -reducer gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -input gs://bucket-name/intro_to_mapreduce/purchases.txt -output gs://bucket-name/intro_to_mapreduce/output_prod_cat

但是我得到了这个错误输出:

File: /home/ramaadhitia/gs:/bucket-name/intro_to_mapreduce/mapper_prod_cat.py does not exist, or is not readable.

Try -help for more information Streaming Command Failed!

云连接器是否无法在 hadoop 流中工作?有没有其他方法可以使用 hadoop 流和位于 Google Cloud Storage 中的 python 脚本和输入文件来运行 python map reduce 作业?

谢谢

最佳答案

hadoop-streaming 中的 -file 选项仅适用于本地文件。但是请注意,它的帮助文本提到 -file 标志已被弃用,取而代之的是通用的 -files 选项。使用通用的 -files 选项允许我们指定要暂存的远程 (hdfs/gs) 文件。另请注意,通用选项必须位于应用程序特定标志之前。

您的调用将变为:

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
-files gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py,gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py \
-mapper mapper_prod_cat.py \
-reducer reducer_prod_cat.py \
-input gs://bucket-name/intro_to_mapreduce/purchases.txt \
-output gs://bucket-name/intro_to_mapreduce/output_prod_cat

关于hadoop - 在 Google Cloud Dataproc 环境中使用 Hadoop 流运行 python map reduce 作业时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48003377/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com