gpt4 book ai didi

Python打印scrapy蜘蛛抓取树结构的方法

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 26 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python打印scrapy蜘蛛抓取树结构的方法由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下:

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单 。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent = 0 ):
   urls = allurls[referer]
   for url in urls:
     print ' ' * indent + referer
     if url in allurls:
       print_urls(allurls, url, indent + 2 )
def main():
   log_re = re. compile (r '<GET (.*?)> \(referer: (.*?)\)' )
   allurls = defaultdict( list )
   for l in fileinput. input ():
     m = log_re.search(l)
     if m:
       url, ref = m.groups()
       allurls[ref] + = [url]
   print_urls(allurls, 'None' )
main()

希望本文所述对大家的Python程序设计有所帮助.

最后此篇关于Python打印scrapy蜘蛛抓取树结构的方法的文章就讲到这里了,如果你想了解更多关于Python打印scrapy蜘蛛抓取树结构的方法的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com