gpt4 book ai didi

java - hadoop - 在多个集群上映射减少

转载 作者:可可西里 更新时间:2023-11-01 16:33:10 24 4
gpt4 key购买 nike

我已经配置了 Hadoop 集群。我有两台机器 MAMB当我使用以下代码运行 mapreduce 程序时

 hadoop  jar /HDP/hadoop-1.2.0.1.3.0.0-0380/contrib/streaming/hadoop-streaming-1.2.0.1.3.0.0-0380.jar  -mapper "python C:\Python33\mapper.py"  -reducer "python C:\Python33\redu.py"  -input "/user/XXXX/input/input.txt"  -output "/user/XXXX/output/out20131112_09"

where : mapper - C:\Python33\mapper.py and reducer C:\Python33\redu.py 在MB的本地磁盘

更新 enter image description here

终于找到错误了。

MA-错误日志

stderr logs
python: can't open file 'C:\Python33\mapper.py': [Errno 2] No such file or directory
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2

ma​​pper - C:\Python33\mapper.py and reducer C:\Python33\redu.py在MA本地盘 不在MB

现在,我需要将我的 m/r 程序复制到 MA 还是我该如何解决这个问题

映射器

import sys
for line in sys.stdin:
line = line.strip()
keys = line.split()
for key in keys:
value = 1
print( '%s \t %d' % (key, value))

最佳答案

如果 map 输入文件小于 dfs.block.size,那么您将以每个作业仅运行一个任务结束。对于小输入,您可以强制 Hadoop 运行多个任务,mapred.max.split.size 值(以字节为单位)小于 dfs.block.size

关于java - hadoop - 在多个集群上映射减少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19928671/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com