gpt4 book ai didi

nutch - 在 nutch 1.3 中重新抓取 URL

转载 作者:行者123 更新时间:2023-12-04 06:10:06 25 4
gpt4 key购买 nike

我将 re_crawler 设置为每天获取一个站点。但它获取了这个站点 3 次。
我应该用 nutch 设置什么属性?谢谢。

最佳答案

我认为您在过去几个月中自己找到了解决方案,但这里是社区的答案。 nutch-default.xml 定义了 3 个属性:

<property>
<name>db.default.fetch.interval</name>
<value>30</value>
<description>(DEPRECATED) The default number of days between re-fetches of a page.
</description>
</property>

<property>
<name>db.fetch.interval.default</name>
<value>2592000</value>
<description>The default number of seconds between re-fetches of a page (30 days).
</description>
</property>

<property>
<name>db.fetch.interval.max</name>
<value>7776000</value>
<description>The maximum number of seconds between re-fetches of a page
(90 days). After this period every page in the db will be re-tried, no
matter what is its status.
</description>

可以在 nutch-site.xml 中覆盖。

关于nutch - 在 nutch 1.3 中重新抓取 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7872169/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com