gpt4 book ai didi

hadoop - Mahout CPU在群集中的利用率

转载 作者:行者123 更新时间:2023-12-02 21:55:49 24 4
gpt4 key购买 nike

我使用mahout进行文本聚类

我的PC设备和软件在下面

服务器:
处理器:Intel Xeon E5-2620 2GHz,Ram:64GB

软件:
VirtualBox上的ubuntu-12.4.1
hadoop-1.0.4,mahout-0.7

我使用冠层算法将80000 txt聚类。但是它运行了很长时间,只需要两三个星期就可以完成它,但是我发现CPU利用率略低于20%。

我发现有人也有这个问题,
http://mail-archives.apache.org/mod_mbox/mahout-user/201212.mbox/%3C7959565186420075099@unknownmsgid%3E#archives

但是我仍然不知道如何加速它,另一方面,我丢失了某些参数设置吗?还是服务器功能不足以运行此作业?

最佳答案

Hadoop和Mahout用于多台计算机。在单个主机上,针对此类操作优化的软件可能会快得多。

Hadoop(和Mahout)管理的数据太大而无法容纳在单个计算机内存中。这要求将数据存储在文件中,并通过网络传输到其他主机。

现在,如果您执行此方法-重复编写中期结果-不需要这样做,那么您当然会比在内存中执行所有操作都要慢。

由于您的CPU未被充分使用,您可能会猜测其他地方肯定存在瓶颈。看一下您的磁盘IO。当前这可能是您的限制因素。

关于hadoop - Mahout CPU在群集中的利用率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14329883/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com