gpt4 book ai didi

web-crawler - 我实际抓取网站的速度有多快?

转载 作者:行者123 更新时间:2023-12-04 23:09:22 28 4
gpt4 key购买 nike

我要爬一个网站以获取一些信息。它大约有 170 000 多页。那么,我可以提出多少请求?我要提取直到 HTML 并获取一些信息。这是一个已经很受欢迎的网站,所以我认为如果只是快速浏览所有页面它不会死...唯一让我紧张的是我不知道所有者是否会阻止我的IP或其他什么如果你这样做?这是正常的吗?我应该只加载 5 页/分钟吗?然后它将永远......我想每 24 小时获取一次新数据。

谢谢大家的回复!

最佳答案

这需要一些时间,实际上我建议您使用轮换代理,并添加多线程。 10个线程就可以了。这样,您可以同时有 10 个请求。但是使用代理会很慢,并且每个请求添加至少 1.5 秒的超时,它会减慢您的速度,但会降低被禁止的风险。

关于web-crawler - 我实际抓取网站的速度有多快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4395319/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com