- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章php与python实现的线程池多线程爬虫功能示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
本文实例讲述了php与python实现的线程池多线程爬虫功能。分享给大家供大家参考,具体如下:
多线程爬虫可以用于抓取内容了这个可以提升性能了,这里我们来看php与python 线程池多线程爬虫的例子,代码如下:
php例子 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
|
<?php
class
Connect
extends
Worker
//worker模式
{
public
function
__construct()
{
}
public
function
getConnection()
{
if
(!self::
$ch
)
{
self::
$ch
= curl_init();
curl_setopt(self::
$ch
, CURLOPT_TIMEOUT, 2);
curl_setopt(self::
$ch
, CURLOPT_RETURNTRANSFER, 1);
curl_setopt(self::
$ch
, CURLOPT_HEADER, 0);
curl_setopt(self::
$ch
, CURLOPT_NOSIGNAL, true);
curl_setopt(self::
$ch
, CURLOPT_USERAGENT,
"Firefox"
);
curl_setopt(self::
$ch
, CURLOPT_FOLLOWLOCATION, 1);
}
/* do some exception/error stuff here maybe */
return
self::
$ch
;
}
public
function
closeConnection()
{
curl_close(self::
$ch
);
}
/**
* Note that the link is stored statically, which for pthreads, means thread local
* */
protected
static
$ch
;
}
class
Query
extends
Threaded
{
public
function
__construct(
$url
)
{
$this
->url =
$url
;
}
public
function
run()
{
$ch
=
$this
->worker->getConnection();
curl_setopt(
$ch
, CURLOPT_URL,
$this
->url);
$page
= curl_exec(
$ch
);
$info
= curl_getinfo(
$ch
);
$error
= curl_error(
$ch
);
$this
->deal_data(
$this
->url,
$page
,
$info
,
$error
);
$this
->result =
$page
;
}
function
deal_data(
$url
,
$page
,
$info
,
$error
)
{
$parts
=
explode
(
"."
,
$url
);
$id
=
$parts
[1];
if
(
$info
[
'http_code'
] != 200)
{
$this
->show_msg(
$id
,
$error
);
}
else
{
$this
->show_msg(
$id
,
"OK"
);
}
}
function
show_msg(
$id
,
$msg
)
{
echo
$id
.
"\t$msg\n"
;
}
public
function
getResult()
{
return
$this
->result;
}
protected
$url
;
protected
$result
;
}
function
check_urls_multi_pthreads()
{
global
$check_urls
;
//定义抓取的连接
$check_urls
=
array
(
'http://xxx.com'
=>
"xx网"
,);
$pool
=
new
Pool(10,
"Connect"
,
array
());
//建立10个线程池
foreach
(
$check_urls
as
$url
=>
$name
)
{
$pool
->submit(
new
Query(
$url
));
}
$pool
->shutdown();
}
check_urls_multi_pthreads();
python 多线程
def handle(sid):
//这个方法内执行爬虫数据处理
pass
class
MyThread(Thread):
""
"docstring for ClassName"
""
def __init__(self, sid):
Thread.__init__(self)
self.sid = sid
def run():
handle(self.sid)
threads = []
for
i in xrange(1,11):
t = MyThread(i)
threads.append(t)
t.start()
for
t in threads:
t.join()
|
python 线程池爬虫:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
|
from
queue
import
Queue
from
threading
import
Thread, Lock
import
urllib.parse
import
socket
import
re
import
time
seen_urls
=
set
([
'/'
])
lock
=
Lock()
class
Fetcher(Thread):
def
__init__(
self
, tasks):
Thread.__init__(
self
)
self
.tasks
=
tasks
self
.daemon
=
True
self
.start()
def
run(
self
):
while
True
:
url
=
self
.tasks.get()
print
(url)
sock
=
socket.socket()
sock.connect((
'localhost'
,
3000
))
get
=
'GET {} HTTP/1.0\r\nHost: localhost\r\n\r\n'
.
format
(url)
sock.send(get.encode(
'ascii'
))
response
=
b''
chunk
=
sock.recv(
4096
)
while
chunk:
response
+
=
chunk
chunk
=
sock.recv(
4096
)
links
=
self
.parse_links(url, response)
lock.acquire()
for
link
in
links.difference(seen_urls):
self
.tasks.put(link)
seen_urls.update(links)
lock.release()
self
.tasks.task_done()
def
parse_links(
self
, fetched_url, response):
if
not
response:
print
(
'error: {}'
.
format
(fetched_url))
return
set
()
if
not
self
._is_html(response):
return
set
()
urls
=
set
(re.findall(r
'''(?i)href=["']?([^\s"'<>]+)'''
,
self
.body(response)))
links
=
set
()
for
url
in
urls:
normalized
=
urllib.parse.urljoin(fetched_url, url)
parts
=
urllib.parse.urlparse(normalized)
if
parts.scheme
not
in
('
', '
http
', '
https'):
continue
host, port
=
urllib.parse.splitport(parts.netloc)
if
host
and
host.lower()
not
in
(
'localhost'
):
continue
defragmented, frag
=
urllib.parse.urldefrag(parts.path)
links.add(defragmented)
return
links
def
body(
self
, response):
body
=
response.split(b
'\r\n\r\n'
,
1
)[
1
]
return
body.decode(
'utf-8'
)
def
_is_html(
self
, response):
head, body
=
response.split(b
'\r\n\r\n'
,
1
)
headers
=
dict
(h.split(
': '
)
for
h
in
head.decode().split(
'\r\n'
)[
1
:])
return
headers.get(
'Content-Type'
, '
').startswith('
text
/
html')
class
ThreadPool:
def
__init__(
self
, num_threads):
self
.tasks
=
Queue()
for
_
in
range
(num_threads):
Fetcher(
self
.tasks)
def
add_task(
self
, url):
self
.tasks.put(url)
def
wait_completion(
self
):
self
.tasks.join()
if
__name__
=
=
'__main__'
:
start
=
time.time()
pool
=
ThreadPool(
4
)
pool.add_task(
"/"
)
pool.wait_completion()
print
(
'{} URLs fetched in {:.1f} seconds'
.
format
(
len
(seen_urls),time.time()
-
start))
|
希望本文所述对大家PHP程序设计有所帮助.
最后此篇关于php与python实现的线程池多线程爬虫功能示例的文章就讲到这里了,如果你想了解更多关于php与python实现的线程池多线程爬虫功能示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我将 Bootstrap 与 css 和 java 脚本结合使用。在不影响前端代码的情况下,我真的很难在css中绘制这个背景。在许多问题中,人们将宽度和高度设置为 0%。但是由于我的导航栏,我不能使用
我正在用 c 编写一个程序来读取文件的内容。代码如下: #include void main() { char line[90]; while(scanf("%79[^\
我想使用 javascript 获取矩阵数组的所有对 Angular 线。假设输入输出如下: input = [ [1,2,3], [4,5,6], [7,8,9], ] output =
可以用pdfmake绘制lines,circles和other shapes吗?如果是,是否有documentation或样本?我想用jsPDF替换pdfmake。 最佳答案 是的,有可能。 pdfm
我有一个小svg小部件,其目的是显示角度列表(参见图片)。 现在,角度是线元素,仅具有笔触,没有填充。但是现在我想使用一种“内部填充”颜色和一种“笔触/边框”颜色。我猜想line元素不能解决这个问题,
我正在为带有三角对象的 3D 场景编写一个非常基本的光线转换器,一切都工作正常,直到我决定尝试从场景原点 (0/0/0) 以外的点转换光线。 但是,当我将光线原点更改为 (0/1/0) 时,相交测试突
这个问题已经有答案了: Why do people write "#!/usr/bin/env python" on the first line of a Python script? (22 个回
如何使用大约 50 个星号 * 并使用 for 循环绘制一条水平线?当我尝试这样做时,结果是垂直(而不是水平)列出 50 个星号。 public void drawAstline() { f
这是一个让球以对角线方式下降的 UI,但球保持静止;线程似乎无法正常工作。你能告诉我如何让球移动吗? 请下载一个球并更改目录,以便程序可以找到您的球的分配位置。没有必要下载足球场,但如果您愿意,也可以
我在我的一个项目中使用 Jmeter 和 Ant,当我们生成报告时,它会在报告中显示 URL、#Samples、失败、成功率、平均时间、最短时间、最长时间。 我也想在报告中包含 90% 的时间线。 现
我有一个不寻常的问题,希望有人能帮助我。我想用 Canvas (android) 画一条 Swing 或波浪线,但我不知道该怎么做。它将成为蝌蚪的尾部,所以理想情况下我希望它的形状更像三角形,一端更大
这个问题已经有答案了: Checking Collision of Shapes with JavaFX (1 个回答) 已关闭 8 年前。 我正在使用 JavaFx 8 库。 我的任务很简单:我想检
如何按编号的百分比拆分文件。行数? 假设我想将我的文件分成 3 个部分(60%/20%/20% 部分),我可以手动执行此操作,-_-: $ wc -l brown.txt 57339 brown.tx
我正在努力实现这样的目标: 但这就是我设法做到的。 你能帮我实现预期的结果吗? 更新: 如果我删除 bootstrap.css 依赖项,问题就会消失。我怎样才能让它与 Bootstrap 一起工作?
我目前正在构建一个网站,但遇到了 transform: scale 的问题。我有一个按钮,当用户将鼠标悬停在它上面时,会发生两件事: 背景以对 Angular 线“扫过” 按钮标签颜色改变 按钮稍微变
我需要使用直线和仿射变换绘制大量数据点的图形(缩放图形以适合 View )。 目前,我正在使用 NSBezierPath,但我认为它效率很低(因为点在绘制之前被复制到贝塞尔路径)。通过将我的数据切割成
我正在使用基于 SVM 分类的 HOG 特征检测器。我可以成功提取车牌,但提取的车牌除了车牌号外还有一些不必要的像素/线。我的图像处理流程如下: 在灰度图像上应用 HOG 检测器 裁剪检测到的区域 调
我有以下图片: 我想填充它的轮廓(即我想在这张图片中填充线条)。 我尝试了形态学闭合,但使用大小为 3x3 的矩形内核和 10 迭代并没有填满整个边界。我还尝试了一个 21x21 内核和 1 迭代,但
我必须找到一种算法,可以找到两组数组之间的交集总数,而其中一个数组已排序。 举个例子,我们有这两个数组,我们向相应的数字画直线。 这两个数组为我们提供了总共 7 个交集。 有什么样的算法可以帮助我解决
简单地说 - 我想使用透视投影从近裁剪平面绘制一条射线/线到远裁剪平面。我有我认为是使用各种 OpenGL/图形编程指南中描述的方法通过单击鼠标生成的正确标准化的世界坐标。 我遇到的问题是我的光线似乎
我是一名优秀的程序员,十分优秀!