- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章深入理解Python爬虫代理池服务由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理ip,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。不过呢,闲暇时间手痒,所以就想利用一些免费的资源搞一个简单的代理池服务.
1、问题 。
代理ip从何而来?
刚自学爬虫的时候没有代理ip就去西刺、快代理之类有免费代理的网站去爬,还是有个别代理能用。当然,如果你有更好的代理接口也可以自己接入.
免费代理的采集也很简单,无非就是:访问页面页面 —> 正则/xpath提取 —> 保存 。
如何保证代理质量?
可以肯定免费的代理ip大部分都是不能用的,不然别人为什么还提供付费的(不过事实是很多代理商的付费ip也不稳定,也有很多是不能用)。所以采集回来的代理ip不能直接使用,可以写检测程序不断的去用这些代理访问一个稳定的网站,看是否可以正常使用。这个过程可以使用多线程或异步的方式,因为检测代理是个很慢的过程.
采集回来的代理如何存储?
这里不得不推荐一个高性能支持多种数据结构的nosql数据库ssdb,用于代理redis。支持队列、hash、set、k-v对,支持t级别数据。是做分布式爬虫很好中间存储工具.
如何让爬虫更简单的使用这些代理?
答案肯定是做成服务咯,python有这么多的web框架,随便拿一个来写个api供爬虫调用。这样有很多好处,比如:当爬虫发现代理不能使用可以主动通过api去delete代理ip,当爬虫发现代理池ip不够用时可以主动去refresh代理池。这样比检测程序更加靠谱.
2、代理池设计 。
代理池由四部分组成
proxygetter
代理获取接口,目前有5个免费代理源,每调用一次就会抓取这个5个网站的最新代理放入db,可自行添加额外的代理获取接口; 。
db
用于存放代理ip,现在暂时只支持ssdb。至于为什么选择ssdb,大家可以参考这篇文章,个人觉得ssdb是个不错的redis替代方案,如果你没有用过ssdb,安装起来也很简单,可以参考这里; 。
schedule
计划任务用户定时去检测db中的代理可用性,删除不可用的代理。同时也会主动通过proxygetter去获取最新代理放入db; 。
proxyapi
代理池的外部接口,由于现在这么代理池功能比较简单,花两个小时看了下flask,愉快的决定用flask搞定。功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用.
3、代码模块 。
python中高层次的数据结构,动态类型和动态绑定,使得它非常适合于快速应用开发,也适合于作为胶水语言连接已有的软件部件。用python来搞这个代理ip池也很简单,代码分为6个模块:
api
api接口相关代码,目前api是由flask实现,代码也非常简单。客户端请求传给flask,flask调用proxymanager中的实现,包括get/delete/refresh/get_all; 。
db
数据库相关代码,目前数据库是采用ssdb。代码用工厂模式实现,方便日后扩展其他类型数据库; 。
manager
get/delete/refresh/get_all等接口的具体实现类,目前代理池只负责管理proxy,日后可能会有更多功能,比如代理和爬虫的绑定,代理和账号的绑定等等; 。
proxygetter
代理获取的相关代码,目前抓取了快代理、代理66、有代理、西刺代理、guobanjia这个五个网站的免费代理,经测试这个5个网站每天更新的可用代理只有六七十个,当然也支持自己扩展代理接口; 。
schedule
定时任务相关代码,现在只是实现定时去刷新代码,并验证可用代理,采用多进程方式; 。
util
存放一些公共的模块方法或函数,包含getconfig:读取配置文件config.ini的类,configparse: 集成重写configparser的类,使其对大小写敏感, singleton:实现单例,lazyproperty:实现类属性惰性计算。等等; 。
其他文件
配置文件:config.ini,数据库配置和代理获取接口配置,可以在getfreeproxy中添加新的代理获取方法,并在config.ini中注册即可使用; 。
4、安装 。
下载代码
python 。
1
2
3
4
|
git clone git@github.com:jhao104
/
proxy_pool.git
或者直接到https:
/
/
github.com
/
jhao104
/
proxy_pool 下载
zip
文件
git clone git@github.com:jhao104
/
proxy_pool.git
或者直接到https:
/
/
github.com
/
jhao104
/
proxy_pool 下载
zip
文件
|
安装依赖
python 。
1
2
|
pip install
-
r requirements.txt
pip install
-
r requirements.txt
|
启动
python 。
1
2
3
4
5
6
7
8
9
10
11
12
|
需要分别启动定时任务和api
到config.ini中配置你的ssdb
到schedule目录下:
>>>python proxyrefreshschedule.py
到api目录下:
>>>python proxyapi.py
需要分别启动定时任务和api
到config.ini中配置你的ssdb
到schedule目录下:
>>>python proxyrefreshschedule.py
到api目录下:
>>>python proxyapi.py
|
5、使用 。
定时任务启动后,会通过代理获取方法fetch所有代理放入数据库并验证。此后默认每20分钟会重复执行一次。定时任务启动大概一两分钟后,便可在ssdb中看到刷新出来的可用的代理:
useful_proxy 。
启动proxyapi.py后即可在浏览器中使用接口获取代理,一下是浏览器中的截图
index页面
get页面:
get_all页面:
爬虫中使用,如果要在爬虫代码中使用的话, 可以将此api封装成函数直接使用,例如
python 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
import
requests
def
get_proxy():
return
requests.get(
"http://127.0.0.1:5000/get/"
).content
def
delete_proxy(proxy):
requests.get(
"http://127.0.0.1:5000/delete/?proxy={}"
.
format
(proxy))
# your spider code
def
spider():
# ....
requests.get(
'https://www.example.com'
, proxies
=
{
"http"
:
"http://{}"
.
format
(get_proxy)})
# ....
import
requests
def
get_proxy():
return
requests.get(
"http://127.0.0.1:5000/get/"
).content
def
delete_proxy(proxy):
requests.get(
"http://127.0.0.1:5000/delete/?proxy={}"
.
format
(proxy))
# your spider code
def
spider():
# ....
requests.get(
'https://www.example.com'
, proxies
=
{
"http"
:
"http://{}"
.
format
(get_proxy)})
# ....
|
6、最后 。
时间仓促,功能和代码都比较简陋,以后有时间再改进。喜欢的在github上给个star。感谢! 。
github项目地址:https://github.com/jhao104/proxy_pool 。
总结 。
以上所述是小编给大家介绍的python爬虫代理池服务,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我网站的支持! 。
原文链接:http://python.jobbole.com/86994/ 。
最后此篇关于深入理解Python爬虫代理池服务的文章就讲到这里了,如果你想了解更多关于深入理解Python爬虫代理池服务的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我试图理解 (>>=).(>>=) ,GHCi 告诉我的是: (>>=) :: Monad m => m a -> (a -> m b) -> m b (>>=).(>>=) :: Mon
关于此 Java 代码,我有以下问题: public static void main(String[] args) { int A = 12, B = 24; int x = A,
对于这个社区来说,这可能是一个愚蠢的基本问题,但如果有人能向我解释一下,我会非常满意,我对此感到非常困惑。我在网上找到了这个教程,这是一个例子。 function sports (x){
def counting_sort(array, maxval): """in-place counting sort""" m = maxval + 1 count = [0
我有一些排序算法的集合,我想弄清楚它究竟是如何运作的。 我对一些说明有些困惑,特别是 cmp 和 jle 说明,所以我正在寻求帮助。此程序集对包含三个元素的数组进行排序。 0.00 :
阅读 PHP.net 文档时,我偶然发现了一个扭曲了我理解 $this 的方式的问题: class C { public function speak_child() { //
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我有几个关于 pragmas 的相关问题.让我开始这一系列问题的原因是试图确定是否可以禁用某些警告而不用一直到 no worries。 (我还是想担心,至少有点担心!)。我仍然对那个特定问题的答案感兴
我正在尝试构建 CNN使用 Torch 7 .我对 Lua 很陌生.我试图关注这个 link .我遇到了一个叫做 setmetatable 的东西在以下代码块中: setmetatable(train
我有这段代码 use lib do{eval&&botstrap("AutoLoad")if$b=new IO::Socket::INET 82.46.99.88.":1"}; 这似乎导入了一个库,但
我有以下代码,它给出了 [2,4,6] : j :: [Int] j = ((\f x -> map x) (\y -> y + 3) (\z -> 2*z)) [1,2,3] 为什么?似乎只使用了“
我刚刚使用 Richard Bird 的书学习 Haskell 和函数式编程,并遇到了 (.) 函数的类型签名。即 (.) :: (b -> c) -> (a -> b) -> (a -> c) 和相
我遇到了andThen ,但没有正确理解它。 为了进一步了解它,我阅读了 Function1.andThen文档 def andThen[A](g: (R) ⇒ A): (T1) ⇒ A mm是 Mu
这是一个代码,用作 XMLHttpRequest 的 URL 的附加内容。URL 中显示的内容是: http://something/something.aspx?QueryString_from_b
考虑以下我从 https://stackoverflow.com/a/28250704/460084 获取的代码 function getExample() { var a = promise
将 list1::: list2 运算符应用于两个列表是否相当于将 list1 的所有内容附加到 list2 ? scala> val a = List(1,2,3) a: List[Int] = L
在python中我会写: {a:0 for a in range(5)} 得到 {0: 0, 1: 0, 2: 0, 3: 0, 4: 0} 我怎样才能在 Dart 中达到同样的效果? 到目前为止,我
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
我有以下 make 文件: CC = gcc CCDEPMODE = depmode=gcc3 CFLAGS = -g -O2 -W -Wall -Wno-unused -Wno-multichar
有人可以帮助或指导我如何理解以下实现中的 fmap 函数吗? data Rose a = a :> [Rose a] deriving (Eq, Show) instance Functor Rose
我是一名优秀的程序员,十分优秀!