gpt4 book ai didi

python - Scrapy爬取整个网站后是否会出现 'know'?

转载 作者:行者123 更新时间:2023-11-30 22:30:04 28 4
gpt4 key购买 nike

在抓取网站的单个页面时,我使用 Beautiful Soup 取得了巨大成功,但我有一个新项目,我必须在其中检查大量网站,看看它们是否包含指向我网站的提及或链接。因此,我需要检查每个站点的整个站点。

对于 BS,我只是还不知道如何告诉我的抓取工具它是通过网站完成的,所以我遇到了递归限制。这是 Scrapy 开箱即用的处理方式吗?

最佳答案

Scrapy 使用链接跟随器遍历站点,直到可用链接列表消失。一旦访问了某个页面,就会将其从列表中删除,并且 Scrapy 确保不会再次访问该链接。

假设所有网站页面都有其他页面的链接,Scrapy 将能够访问网站的每个页面。

我已经使用 Scrapy 浏览了数千个网站,主要是小型企业,并且没有遇到任何问题。它能够遍历整个站点。

关于python - Scrapy爬取整个网站后是否会出现 'know'?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46183843/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com