- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章一篇文章教会你利用Python网络爬虫成为斗图达人由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
##【1、项目背景】 。
你是否在寻找可以与高手斗图的应用? 你是否在寻找可以自制表情的应用?你是否在寻找最全、最爆笑的表情库?
斗图网是一个收集了成千上万的撕逼斗图表情包,在这里你可以快速找到想要的表情, 更好的“斗图”,助您成为真正的斗图终结者.
##【2、项目目标】 。
下载表情包,保存文档.
##【3、涉及的库和网站】 。
1、网址如下:
1
|
https://www.doutula.com/photo/list/?page={}
|
2、涉及的库:requests**、lxml、ssl****、time** 。
3、软件:PyCharm 。
##【4、项目分析】 。
1、如何找到表情包图片地址?
F12右键检查,找到对应的图片的地址.
观察网址的变化(一般取前三页):
1
2
3
|
https://www.doutula.com/photo/list/?page=1
https://www.doutula.com/photo/list/?page=2
https://www.doutula.com/photo/list/?page=3
|
发现点击下一页时,page{}每增加一页自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求.
因为这个网址是https,需要导入一个ssl模块,忽略ssl验证.
**3. **如何获取Cookie?
右键检查,找到NetWork,随便复制一个Cookie即可.
##【5、项目实施】 。
1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。导入需要的库.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
import requests
from lxml import etree
from fake_useragent import UserAgent
import ssl # ssl验证
import time
ssl._create_default_https_context = ssl._create_unverified_context
class Emoticon(object):
def __init__(self):
pass
def main(self):
pass
if __name__ == '__main__':
spider = Emoticon()
spider.main()
|
2、导入网址和构造请求头,防止反爬.
1
2
3
|
def __init__(self):
self.headers = {'User-Agent': 'Mozilla/5.0'}
self.url = 'https://www.doutula.com/photo/list/?page={}'
|
3、发送请求 ,获取响应,页面回调,方便下次请求.
1
2
3
4
|
def get_page(self, url):
res = requests.get(url=url, headers=self.headers)
html = res.content.decode("utf-8")
return html
|
4、xpath解析页面.
这里我们先获取父节点,在通过for循环遍历,找到对应的子节点(图片地址).
1
2
3
4
|
image = parse_html.xpath('//ul[@class="list-group"]/li/div/div//a')
for i in image:
image_src_list = i.xpath('.//img/@data-original')[0]
image_name = i.xpath('.//img//@alt')[0]
|
运行的结果:
5、对图片地址发生请求,取对应图片地址后10位,作为图片的命名,写入文件(每一张图片的后缀名不一样,所有这里不采用image_name作为图片的命名).
1
2
3
4
5
6
7
|
html2 = requests.get(url=image_src_list, headers=self.headers).content
name = "/图/" + image_src_list[-20:]
#print(name[-10:])
with open(name[-10:], 'wb') as f:
f.write(html2)
print("%s 【下载成功!!!!】" % image_name)
print("==================================")
|
6、调用方法,实现功能.
1
2
3
|
html = self.get_page(url)
self.parse_page(html)
print("======================第%s页爬取成功!!!!=======================" % page)
|
7、time模块打出执行时间.
1
2
3
|
start = time.time()
end = time.time()
print('执行时间:%.2f' % (end - start))
|
【6、效果展示】 。
1、点击绿色小三角运行输入起始页,终止页.
2、将下载成功信息显示在控制台.
3、保存文档,在本地可以看到斗图.
##【7、总结】 。
1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可.
2、本文基于Python网络爬虫,利用爬虫库,获取表情包,存入文档.
3、希望通过这个项目能够了解到,对于HTTPS网站,解除ssl验证的有大致的了解.
4、可以尝试的去爬取其他的分类的表情包,按照步骤去实现,实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻.
原文地址:https://blog.csdn.net/pdcfighting/article/details/108800140 。
最后此篇关于一篇文章教会你利用Python网络爬虫成为斗图达人的文章就讲到这里了,如果你想了解更多关于一篇文章教会你利用Python网络爬虫成为斗图达人的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我正在学习 Go,但我无法在任何地方找到这个答案。 Web开发中的文件扩展名是否有任何官方标准?我见过多种约定,例如 .tmpl 和 .gtpl,这是什么?谢谢。 最佳答案 没有固定的标准,但有一些相
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8 年前关闭。 Improve
假设我有两个类(class) Widget ^ | Window 我还有另一个类应用程序: 定义如下 class Application { public: ... private:
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我多年来一直在使用 MySQL,直到去年左右,主要是在较小的项目上。我不确定是语言的性质还是我缺乏真正的教程让我不确定我正在写的东西是否是优化目的和扩展目的的正确方法。 虽然自学 PHP,但我对自己和
我已经多次读到 EJB 是重量级的……但昨晚我正在浏览关于 EJB 的 Java EE 6 教程,它们似乎只是普通的 Java 对象,除了它们可以有像 Stateless 或 Singletons 这
如何使此 SimpleModal 脚本在页面加载时加载而不是单击按钮?谢谢=) Demo 基本模态对话框 对于此演示,SimpleModal 使用此“隐藏”数据作为其内容。您还可以使用标准 HTML
这是 Haskell 中的代码: class Fooable a where foo :: a -> a instance Fooable (a, a) where foo = ...
是否有推荐的方法来测试 Actor 是否使用 be 正确改变了其行为?我更喜欢使用 FSM 的原因之一是因为我可以轻松验证 Actor 是否已更改其行为。我不知道在使用 become/unbecome
我正在构建一个位于“php my admin”中的表,我是在第一次点击其中一个“th”它的 asc 时这样做的,现在我试图在第二次点击时制作 desc ..有什么想法吗? 阿姆..很多我不记得了抱歉.
考虑以下网页。 我在 Firefox 中打开此页面,打开 JS 控制台并键入以下内容。 > document.getElementById(
如何让自己成为 postgresql 的 super 用户? 我一直在尝试创建数据库,但我不断收到以下错误: createdb: database creation failed: ERROR: pe
Query没有太大帮助。 如前所述here , PostgreSQL 是 ORDBMS。 here ,它解释了 PostgreSQL 是 RDBMS。 PostgreSQL 是一个 ORDBMS 是什
我已经看到,当在导航元素中使用的链接中垂直/水平居中文本时,将链接设置为 flex 容器会很有用。我没有意识到链接文本实际上可以是一个(单个) flex 元素。我可以看到链接中的 span 元素可以是
我见过很多说明如何找到给定集合的子集的示例,但是您如何将一个集合设为另一个集合的子集?所以集合 B 是集合 A 的子集,这将如何实现?我目前正在使用递归性质的方案,但是这本书只展示了如何列出子集而不是
有些程序会根据其标准输出是否为 tty 来更改其输出。因此,如果您将它们放入管道或重定向它们,输出将与您的 shell 中的不同。这是一个例子: $ touch a b c # when runnin
我正处于项目的开始阶段,到目前为止我一直在使用默认的 MySQL 数据库。 对了,默认的数据库有名字吗? 我的问题是如何在不删除当前表和创建新表的情况下将现有表更改为 utf-8 和 InnoDB。是
我正在尝试编写一个过滤器来包装数据以遵循 JSON API spec到目前为止,它适用于我直接返回 ActionResult 的所有情况,例如 ComplexTypeJSON。我试图让它在像 Comp
我在 Storyboard 上创建了一个带有一个 UITextField 的自定义 UIViewController。在 viewDidLoad 上,我将 UITextFIeld 设置为 become
我已经看到关于 valueless_by_exception 方法的 cppreference 的以下注释: A variant may become valueless in the followi
我是一名优秀的程序员,十分优秀!