gpt4 book ai didi

multithreading - 线程是否违反 robots.txt?

转载 作者:行者123 更新时间:2023-12-02 04:08:50 27 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。

10年前关闭。




Improve this question




我是抓取新手,最近我意识到线程可能是快速抓取网站的方法。不过,在我开始破解它之前,我认为确定这是否最终会让我受到限制可能是明智的。所以问题是,如果我重写我的程序以使用线程更快地爬行,这会违反大多数网站的 robots.txt 吗?

最佳答案

取决于:如果您的线程有自己单独的要抓取的 URL 队列,并且任何类型的队列之间没有同步,那么当两个(或更多)线程尝试为快速连续的同一站点。当然 a well designed crawler不会那样做!

非常“简单”的爬虫具有某种共享优先级队列,其中工作根据各种机器人排除协议(protocol)排队,所有线程都从该队列中提取要爬取的 URL。这种方法存在很多问题,尤其是在尝试扩展并爬取整个世界时 野生 网络。

更高级的爬虫执行“预算”计算 (see the BEAST budget enforcement section),这使它们能够根据各种标准智能地安排爬取:垃圾邮件指标、robots.txt、覆盖率与新鲜度等。预算执行使多线程爬虫更容易快速爬取并有礼貌地爬行!

关于multithreading - 线程是否违反 robots.txt?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6256018/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com