- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章利用python批量爬取百度任意类别的图片的实现方法由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
利用python批量爬取百度任意类别的图片时: (1):设置类别名字。 (2):设置类别的数目,即每一类别的的图片数量。 (3):编辑一个txt文件,命名为name.txt,在txt文件中输入类别,此类别即为关键字。并将txt文件与python源代码放在同一个目录下.
python源代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
|
# -*- coding: utf-8 -*-
"""
Created on Sun Sep 13 21:35:34 2020
@author: ydc
"""
import
re
import
requests
from
urllib
import
error
from
bs4
import
BeautifulSoup
import
os
num
=
0
numPicture
=
0
file
=
''
List
=
[]
def
Find(url, A):
global
List
print
(
'正在检测图片总数,请稍等.....'
)
t
=
0
i
=
1
s
=
0
while
t <
1000
:
Url
=
url
+
str
(t)
try
:
# 这里搞了下
Result
=
A.get(Url, timeout
=
7
, allow_redirects
=
False
)
except
BaseException:
t
=
t
+
60
continue
else
:
result
=
Result.text
pic_url
=
re.findall(
'"objURL":"(.*?)",'
, result, re.S)
# 先利用正则表达式找到图片url
s
+
=
len
(pic_url)
if
len
(pic_url)
=
=
0
:
break
else
:
List
.append(pic_url)
t
=
t
+
60
return
s
def
recommend(url):
Re
=
[]
try
:
html
=
requests.get(url, allow_redirects
=
False
)
except
error.HTTPError as e:
return
else
:
html.encoding
=
'utf-8'
bsObj
=
BeautifulSoup(html.text,
'html.parser'
)
div
=
bsObj.find(
'div'
,
id
=
'topRS'
)
if
div
is
not
None
:
listA
=
div.findAll(
'a'
)
for
i
in
listA:
if
i
is
not
None
:
Re.append(i.get_text())
return
Re
def
dowmloadPicture(html, keyword):
global
num
# t =0
pic_url
=
re.findall(
'"objURL":"(.*?)",'
, html, re.S)
# 先利用正则表达式找到图片url
print
(
'找到关键词:'
+
keyword
+
'的图片,即将开始下载图片...'
)
for
each
in
pic_url:
print
(
'正在下载第'
+
str
(num
+
1
)
+
'张图片,图片地址:'
+
str
(each))
try
:
if
each
is
not
None
:
pic
=
requests.get(each, timeout
=
7
)
else
:
continue
except
BaseException:
print
(
'错误,当前图片无法下载'
)
continue
else
:
string
=
file
+
r
'\\' + keyword + '
_
' + str(num) + '
.jpg'
fp
=
open
(string,
'wb'
)
fp.write(pic.content)
fp.close()
num
+
=
1
if
num >
=
numPicture:
return
if
__name__
=
=
'__main__'
:
# 主函数入口
headers
=
{
'Accept-Language'
:
'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
,
'Connection'
:
'keep-alive'
,
'User-Agent'
:
'Mozilla/5.0 (X11; Linux x86_64; rv:60.0) Gecko/20100101 Firefox/60.0'
,
'Upgrade-Insecure-Requests'
:
'1'
}
A
=
requests.Session()
A.headers
=
headers
###############################
tm
=
int
(
input
(
'请输入每类图片的下载数量 '
))
numPicture
=
tm
line_list
=
[]
with
open
(
'./name.txt'
, encoding
=
'utf-8'
) as
file
:
line_list
=
[k.strip()
for
k
in
file
.readlines()]
# 用 strip()移除末尾的空格
for
word
in
line_list:
url
=
'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='
+
word
+
'&pn='
tot
=
Find(url, A)
Recommend
=
recommend(url)
# 记录相关推荐
print
(
'经过检测%s类图片共有%d张'
%
(word, tot))
file
=
word
+
'文件'
y
=
os.path.exists(
file
)
if
y
=
=
1
:
print
(
'该文件已存在,请重新输入'
)
file
=
word
+
'文件夹2'
os.mkdir(
file
)
else
:
os.mkdir(
file
)
t
=
0
tmp
=
url
while
t < numPicture:
try
:
url
=
tmp
+
str
(t)
# result = requests.get(url, timeout=10)
# 这里搞了下
result
=
A.get(url, timeout
=
10
, allow_redirects
=
False
)
print
(url)
except
error.HTTPError as e:
print
(
'网络错误,请调整网络后重试'
)
t
=
t
+
60
else
:
dowmloadPicture(result.text, word)
t
=
t
+
60
# numPicture = numPicture + tm
print
(
'当前搜索结束,感谢使用'
)
|
到此这篇关于利用python批量爬取百度任意类别的图片的实现方法的文章就介绍到这了,更多相关python批量爬取百度图片内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我! 。
原文链接:https://blog.csdn.net/qq_42612717/article/details/108922563 。
最后此篇关于利用python批量爬取百度任意类别的图片的实现方法的文章就讲到这里了,如果你想了解更多关于利用python批量爬取百度任意类别的图片的实现方法的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我在字符串中有一个大词。例子白 Wine 额外优惠。 我想在第一行使用“White”,在第二行使用“wine extra offer”。使用下面的代码: string value="White win
我想在无符号中执行一些算术运算,需要取负整数的绝对值,比如 do_some_arithmetic_in_unsigned_mode(int some_signed_value) { unsign
我正在努力使用 data.table 来总结向量函数的结果,这在 ddply 中很容易。 问题 1:使用带有矢量输出的(昂贵的)函数聚合 dt dt[ , as.list(quantile(x)),
我有两个分数列表; 说 A = [ 1/212, 5/212, 3/212, ... ] 和 B = [ 4/143, 7/143, 2/143, ... ] . 如果我们定义 A' = a[0] *
我已经使用 numpy 从 csv 文件中获取数据。 numpy 数组的尺寸为:100*20。我如何取列的平均值(比如 col 3,5,8)并用包含这 3 个 cols 平均值的新列替换它们 如果
在 Rust 中取任意数的 n 次根的最佳方法是什么?例如,num crate 只允许取整数类型的第 n 个主根,即 floor'ed 或 ceil'ed 值......如何最好地接近实际值? 最佳答
看起来这应该很容易,但我很困惑。我已经掌握了使用 dplyr 进行编程的大致技巧0.7,但为此苦苦挣扎:How do Iprogram in dplyr我想要编程的变量是否是一个字符串? 我正在抓取数
在 Rust 中取任意数的 n 次根的最佳方法是什么?例如,num crate 只允许取整数类型的第 n 个主根,即 floor'ed 或 ceil'ed 值......如何最好地接近实际值? 最佳答
我有一个 pandas 数据框,其中有一列名为“coverage”。对于一系列特定索引值,我想获取前 100 行的平均“覆盖率”值。例如,对于索引位置 1001,我想要第 901-1000 行的平均“
import pandas as pd data = {'date': ['1998-03-01', '2001-04-01','1998-06-01','2001-08-01','2001-05-0
我有一个包含 100 个数字的 NSArray。我想创建一个 5 个数字的 NSArray。第二个数组中的第一个数字是第一个数组中前 20 个数字的平均值。第二个数字是第一个数组中第二组 20 个数字
我该怎么做?我试过 abs() 但它只适用于整数。有内置的方法吗? CGFloat flo = -123; abs(flo) 返回 0 最佳答案 使用 fabs() CGFloat f = -123.
我正在采用以下计算的 log2: tl_out.a.bits.size := log2Ceil(s1_row * s2_column * 4.U) 其中,s1_row 和 s2_column 是 UI
如何从 m 个元素集合中取出 n 个元素,以便在元素用完时从头开始? List list = new List() {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; List newL
我已经完成了研究,但似乎找不到有关该主题的足够文档。 在 Object streams 上尝试一些代码时,我注意到将 BufferedOutputStream 放入 ObjectOutputStrea
我需要计算数据中连续时间组之间的差异,如下所示 from io import StringIO import pandas as pd strio = StringIO("""\
我在 Mongo 数据库中有以下文档: { _id: 1, question: "Blue or red?", __v: 0, votes: [9, 5] } 我想在后
好吧,宇宙中一定有人知道这个问题的答案。 我已经在这里问过这个问题,但仍然没有解决方案。 我需要保留和换行 div 中的文本。到目前为止,我很难想出解决方案。我找到的最佳解决方案并不适用于所有浏览器。
我正在尝试采用 3 个单独的整数输入(年、月、日)并采用这 3 个条目并从中形成一个日期对象,以便我可以使用它来比较其他日期。 这是我目前所拥有的,不知从何而来: public void compar
在我的 IOS 项目中,我有一个包含该函数的自定义 Logger 类(单例) - (void)log:(NSString *)domain logLevel:(int)level logMessage
我是一名优秀的程序员,十分优秀!