gpt4 book ai didi

web-crawler - 对于网络爬虫来说,合适的更新间隔是多少?

转载 作者:行者123 更新时间:2023-12-03 07:49:36 35 4
gpt4 key购买 nike

我目前正在开发自己的小型网络爬虫,并且想知道......

网络爬虫再次访问相同网站的合适间隔是多少?

您应该每天重新访问一次吗?每小时一次?我真的不知道......有人在这件事上有经验吗?也许有人可以指出我正确的方向?

最佳答案

我认为您的抓取工具访问需要是有机的。

我首先每周抓取一次列表,
当网站内容发生变化时,将其设置为每周抓取两次,[然后]当您看到更频繁的更改时,您就会更频繁地抓取。

该算法需要足够智能,才能了解一次性编辑和频繁网站更改之间的区别。

此外,永远不要忘记关注 Robots.txt...这是您在抓取过程中应该访问的第一个页面,您需要首先尊重它的内容。

关于web-crawler - 对于网络爬虫来说,合适的更新间隔是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3219584/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com