gpt4 book ai didi

nutch - 如何加快在 Nutch 中的爬行

转载 作者:行者123 更新时间:2023-12-01 07:05:41 24 4
gpt4 key购买 nike

我正在尝试开发一个应用程序,在该应用程序中,我将为 Nutch 中的 urls 文件提供一组受限的 url。我能够抓取这些 url 并通过从段中读取数据来获取它们的内容。

我通过提供深度 1 进行爬网,因为我不关心网页中的外链或内链。我只需要 urls 文件中该网页的内容。

但是执行此爬网需要时间。所以,建议我一种减少爬行时间并提高爬行速度的方法。我也不需要索引,因为我不关心搜索部分。

有没有人有关于如何加快爬行速度的建议?

最佳答案

获得速度的主要事情是配置 nutch-site.xml

<property>
<name>fetcher.threads.per.queue</name>
<value>50</value>
<description></description>
</property>

关于nutch - 如何加快在 Nutch 中的爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4871972/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com