gpt4 book ai didi

hadoop - 如何在分布式模式下运行Apache Nut

转载 作者:行者123 更新时间:2023-12-02 21:35:18 25 4
gpt4 key购买 nike

我正在使用Apache Nutch 2.3。我有一个由4个Hadoop(1.2.1)节点组成的小型集群。我正在运行一个Crawler实例。每天大约爬行3万至5万页。我每天必须抓取更多页面(假定值约为100万)。我曾尝试过与Nutch的常见问题解答不同的问题。但是爬网的文档无法增加。我想我应该在完全分布式模式下运行Nutch(我希望Nutch的完全分布式模式正在运行多个实例)。

我的问题有什么解决方案?

最佳答案

通常,应增加topN值并将<name>http.content.limit</name>(在nutch-site.xml中)的值设置为 -1

关于hadoop - 如何在分布式模式下运行Apache Nut,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32753538/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com