gpt4 book ai didi

编写Python爬虫抓取暴走漫画上gif图片的实例分享

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 26 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章编写Python爬虫抓取暴走漫画上gif图片的实例分享由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看。爬虫用的是python3.3开发的,主要用到了urllib、request和BeautifulSoup模块.

urllib模块提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个URL时,就相当于我们用Python内建的open()打开一个文件。但不同的是,前者接收一个URL作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然地没办法进行seek操作),而后者接收的是一个本地文件名.

Python的BeautifulSoup模块,可以帮助你实现HTML和XML的解析 先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。 这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。 但是对于工作量很大,要解析内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。 而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。 注:BeautifulSoup是第三方库,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文档中的原文如下。 Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error. 爬虫源代码如下 。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# -*- coding: utf-8 -*-
 
import urllib.request
import bs4,os
 
page_sum = 1 #设置下载页数
 
path = os.getcwd()
path = os.path.join(path, '暴走GIF' )
if not os.path.exists(path):
   os.mkdir(path)                 #创建文件夹
 
url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
   'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
          ' Chrome/32.0.1700.76 Safari/537.36'
}
 
for count in range (page_sum):
   req = urllib.request.Request(
     url = url + str (count + 1 ),
     headers = headers
   )
   print (req.full_url)
   content = urllib.request.urlopen(req).read()
 
   soup = bs4.BeautifulSoup(content)          # BeautifulSoup
   img_content = soup.findAll( 'img' ,attrs = { 'style' : 'width:460px' })
 
   url_list = [img[ 'src' ] for img in img_content]   #列表推导 url
   title_list = [img[ 'alt' ] for img in img_content]  #图片名称
 
   for i in range (url_list.__len__()) :
     imgurl = url_list[i]
     filename = path + os.sep + title_list[i] + ".gif"
     print (filename + ":" + imgurl)             #打印下载信息
     urllib.request.urlretrieve(imgurl,filename)    #下载图片

在第15行可以修改下载页数,将此文件保存为baozougif.py,使用命令python baozougif.py运行后在同目录下会生成「暴走GIF」的文件夹,所有的图片会自动下载到该目录中.

最后此篇关于编写Python爬虫抓取暴走漫画上gif图片的实例分享的文章就讲到这里了,如果你想了解更多关于编写Python爬虫抓取暴走漫画上gif图片的实例分享的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com