gpt4 book ai didi

hadoop - 在 'pseudo distributed' 模式下使用 Hadoop 可以处理的最大文件大小

转载 作者:行者123 更新时间:2023-12-02 21:58:10 27 4
gpt4 key购买 nike

我正在使用以下配置在 Ubuntu 11.04 机器中处理一个包含 7+ 百万行(~59 MB)的文件:

Intel(R) Core(TM)2 双核 CPU E8135 @ 2.66GHz,2280 MHz
内存:2GB
磁盘:100GB


即使跑了 45 分钟,我也没有看到任何进展。

删除 hdfs://localhost:9000/user/hadoop_admin/output
packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv,/usr/local/hadoop/mapper.py,/usr/local/hadoop/reducer.py,/tmp/hadoop-hadoop_admin/hadoop -unjar8773176795802479000/] []/tmp/streamjob582836411271840475.jar tmpDir=null
22 年 11 月 7 日 10:39:20 信息 mapred.FileInputFormat:要处理的总输入路径:1
22 年 11 月 7 日 10:39:21 信息流。StreamJob:getLocalDirs():[/tmp/hadoop-hadoop_admin/mapred/local]
22 年 11 月 7 日 10:39:21 信息流。StreamJob:正在运行的作业:job_201107181559_0099
11/07/22 10:39:21 INFO streaming.StreamJob:要终止此作业,请运行:
22 年 11 月 7 日 10:39:21 信息流。StreamJob:/usr/local/hadoop/bin/../bin/hadoop 作业 -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099
11/07/22 10:39:21 INFO streaming.StreamJob:跟踪 URL:http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099
22 年 11 月 7 日 10:39:22 信息流。StreamJob: map 0% 减少 0%

使用 Hadoop 可以处理的最大文件大小是多少?在 pseudo distributed模式。

更新:

我正在使用 Hadoop Streaming 做一个简单的字数统计应用程序.我的 mapper.pyreducer.py花了50 Sec处理具有 220K 行 (~19MB) 的文件。

最佳答案

问题解决了,我没有杀死以前的工作,所以这个工作加入了队列,这就是它被延迟的原因。我用了bin/hadoop -kill <job_id>杀死所有挂起的作业。花了~140 Sec处理 pseudo distributed mode 中的整个文件 (~59 MB)

关于hadoop - 在 'pseudo distributed' 模式下使用 Hadoop 可以处理的最大文件大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6785296/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com