gpt4 book ai didi

python - 使用 Beautiful Soup 的 Python 网络爬虫 BFS 算法?

转载 作者:太空宇宙 更新时间:2023-11-04 12:57:22 24 4
gpt4 key购买 nike

我必须创建自己的网络爬虫(出于教育目的),它会爬过每一个(或尽可能多的)保加利亚网站(.bg 域)并返回它正在运行的服务器Linux shell 或 requests 库中的 curl -I 命令。我正在使用一个类似数据库的大型网站,其中包含许多其他网站的链接作为一个很好的起点。

所以我必须检查每个站点中的每个链接并检查其运行的服务器,将其推送到数据库中。棘手的是我需要打开每个链接并深入并打开其他链接(如树)。所以我的想法是我必须使用 BFS 算法,将访问过的站点保存在列表中并添加我尚未访问过的每个链接。我也只对基本 URL 感兴趣,而不是网站内的相关网页,因为我对网站运行的服务器感兴趣。换句话说,我应该只检查一次 example.bg,而我对 example.bg/xyz/xyz/... 不感兴趣。

我真的不知道从哪里开始,所以我对使用 Beautiful Souprequests 解决这个问题的通用算法很感兴趣。

最佳答案

正如您所说,您需要使用图遍历算法作为 BFS 或 DFS,为此,我首先会考虑一种方法,将这些算法中的一种结合起来,达到您想要的目的,这基本上是标记每个网络访问过的网站。不知道大家是否熟悉。我可以给你一个链接供你引用:http://www.geeksforgeeks.org/depth-first-traversal-for-a-graph/

其次,您可以开始使用 Beautiful Soup 并实现一种从 HTML 文件中提取感兴趣数据的方法。

关于python - 使用 Beautiful Soup 的 Python 网络爬虫 BFS 算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35370141/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com