gpt4 book ai didi

performance - 优化 hadoop 集群上的 nutch 性能

转载 作者:可可西里 更新时间:2023-11-01 16:56:20 26 4
gpt4 key购买 nike

我正在尝试优化抓取网站的 nutch 性能。现在我在小型 hadoop 集群上测试性能,只有两个节点 32gb RAM,cpu Intel Xeon E3 1245v2 4c/8t。我的 nutch 配置 http://pastebin.com/bBRHpFuq

所以,问题是:获取工作不是最优的。一些 reduce 任务有 4k 页面用于获取,一些 1kk 页面。例如见截图 https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些 reduce 任务在 10 分钟内完成,但一个任务工作了 11 个小时并且仍在继续工作,所以当我有 24 个 reduce 任务但只工作一个时,这就像一个瓶颈。

可能有人可以提供有用的建议或链接,我可以在其中阅读有关问题的信息。

最佳答案

这是 Nutch 中的问题,一个站点需要大约 50 000 000 个,而所有其他站点需要 500 000 个。因此,当它通过主机创建队列时,我们会看到一个非常大的队列和另一个非常小的队列。

关于performance - 优化 hadoop 集群上的 nutch 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29389465/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com