- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章PHP使用CURL实现多线程抓取网页由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码:
代码1:将获得的代码直接写入某个文件 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
<?php
$urls
=
array
(
'http://www.sina.com.cn/'
,
'http://www.sohu.com/'
,
'http://www.163.com/'
);
// 设置要抓取的页面URL
$save_to
=
'/test.txt'
;
// 把抓取的代码写入该文件
$st
=
fopen
(
$save_to
,
"a"
);
$mh
= curl_multi_init();
foreach
(
$urls
as
$i
=>
$url
) {
$conn
[
$i
] = curl_init(
$url
);
curl_setopt(
$conn
[
$i
], CURLOPT_USERAGENT,
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"
);
curl_setopt(
$conn
[
$i
], CURLOPT_HEADER ,0);
curl_setopt(
$conn
[
$i
], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt(
$conn
[
$i
], CURLOPT_FILE,
$st
);
// 设置将爬取的代码写入文件
curl_multi_add_handle (
$mh
,
$conn
[
$i
]);
}
// 初始化
do
{
curl_multi_exec(
$mh
,
$active
);
}
while
(
$active
);
// 执行
foreach
(
$urls
as
$i
=>
$url
) {
curl_multi_remove_handle(
$mh
,
$conn
[
$i
]);
curl_close(
$conn
[
$i
]);
}
// 结束清理
curl_multi_close(
$mh
);
fclose(
$st
);
?>
|
代码2:将获得的代码先放入变量,再写入某个文件 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
|
<?php
$urls
=
array
(
'http://www.sina.com.cn/'
,
'http://www.sohu.com/'
,
'http://www.163.com/'
);
$save_to
=
'/test.txt'
;
// 把抓取的代码写入该文件
$st
=
fopen
(
$save_to
,
"a"
);
$mh
= curl_multi_init();
foreach
(
$urls
as
$i
=>
$url
) {
$conn
[
$i
] = curl_init(
$url
);
curl_setopt(
$conn
[
$i
], CURLOPT_USERAGENT,
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"
);
curl_setopt(
$conn
[
$i
], CURLOPT_HEADER ,0);
curl_setopt(
$conn
[
$i
], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt(
$conn
[
$i
],CURLOPT_RETURNTRANSFER,true);
// 设置不将爬取代码写到浏览器,而是转化为字符串
curl_multi_add_handle (
$mh
,
$conn
[
$i
]);
}
do
{
curl_multi_exec(
$mh
,
$active
);
}
while
(
$active
);
foreach
(
$urls
as
$i
=>
$url
) {
$data
= curl_multi_getcontent(
$conn
[
$i
]);
// 获得爬取的代码字符串
fwrite(
$st
,
$data
);
// 将字符串写入文件。当然,也可以不写入文件,比如存入数据库
}
// 获得数据变量,并写入文件
foreach
(
$urls
as
$i
=>
$url
) {
curl_multi_remove_handle(
$mh
,
$conn
[
$i
]);
curl_close(
$conn
[
$i
]);
}
curl_multi_close(
$mh
);
fclose(
$st
);
?>
|
以上所述就是本文的全部内容了,希望大家能够喜欢.
最后此篇关于PHP使用CURL实现多线程抓取网页的文章就讲到这里了,如果你想了解更多关于PHP使用CURL实现多线程抓取网页的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我以前从未做过任何 curl ,所以需要一些帮助。我试图从示例中解决这个问题,但无法理解它! 我有一个 curl 命令,我可以从 Windows 命令行成功运行该命令,该命令行在 Solr 中索引 p
curl -v有什么区别和 curl -I ? 我可以看到 -v是冗长的和 -I是标题。有什么具体的吗? 最佳答案 -I (大写字母 i)在 curl 中表示“没有正文”,对于 HTTP 表示发送 H
我正在使用curl php API访问FTP链接。在特定站点上,它给出错误代码9(拒绝访问)。但是,可以从IE和Firefox访问该链接。 然后,我运行curl命令行,它给出了相同的“访问拒绝”结果。
我已经使用curl有一段时间了,它可以正常工作,但是使用使用用户'domain\username'来验证curl的代理时,无法请求授权。授权方法是NTLM。此代码放入批处理文件中。 代码: curl
“curl”默认使用哪些证书? 例子: curl -I -L https://cruises.webjet.com.au 在 Ubuntu 15.04 上失败 curl: (60) SSL certi
我知道终端输出的一部分是请求的持续时间,剩余时间等。但是是否有一些文档指定了curl命令的终端输出的每一列到底是什么?手册页上的内容非常稀疏。 最佳答案 可能不容易找到,但已在the curl boo
我想通过 curl 在我自己的云服务器上的特定文件夹中上传文件。例如:http://www.myowncloudserver.com/remote.php/webdav/{MY_FOLDER}。此时我
我的网站上有一个密码保护的Web文件夹,我正在使用Curl在另一个域上获取该文件夹,我想要的是:当我尝试打开URL时,应该问我用户名和密码,而不是让它显示“需要授权”。 例: http://www.e
有没有一种方法可以通过简单的Curl获取Rabbitmq中队列的大小(剩余消息)? 类似于curl -xget http://host:1234/api/queue/test/stats 谢谢 最佳答
关闭。这个问题是opinion-based .它目前不接受答案。 2年前关闭。 锁定。这个问题及其答案是locked因为这个问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我最近开始在我的
我想访问需要用户名/密码的 URL。我想尝试用curl 访问它。现在我正在做类似的事情: curl http://api.somesite.com/test/blah?something=123 我收
我正在尝试使用 CURL 进行查询ElasticSearch 中的命令在windows平台。 例如:localhost:9200/playground/equipment/1?pretty 我收到一条
我正在尝试使用 Docker 构建和运行 Marklogic 实例。 Marklogic 提供了一些不错的 http api,所以,作为最终 CMD在 Dockerfile 中,我运行两个脚本,它们通
我正在尝试通过 cURL 检索网页的内容(比方说 http://www.foo.com/bar.php )。 当我在浏览器中加载网站时,加载页面时会出现动画,页面最终会显示出来。 但是使用 cURL,
我正在尝试使用带代理的命令行 CURL 获取响应状态代码。 这会返回整个页面,但我只想要状态代码。我怎么做?谢谢。 curl -sL -w -x IP:PORT "%{http_code}\n""ht
我有一段代码检查 http/s 端点的状态和加载时间。然后我会为每个顶级页面检查 1 级 href,以检查页面引用的所有内容是否也加载了 200。 (我查了50个顶级页面,每个顶级页面平均有8个链接)
curl --upload-file 和 curl --form file=@/path/file 有什么区别?这些 HTTP 请求有何不同? 最佳答案 --上传文件 (使用 HTTP 或 HTTPS
我正在尝试使用 system-curl 安装 cmake,使用 ./bootstrap --system-curl,如 here 所示.这样做,我得到了: -- Could NOT find
我需要使用 Curl 下载 Youtube 视频的特定部分。 (假设我想下载前 2MB)我在 Curl 中使用 -r 开关来实现这一点。它适用于非 YouTube 链接,但 Youtube 链接会忽略
我希望在使用 curl 命令从远程服务器下载文件后,将时间戳或日期添加到文件名中。我知道您可以使用 -o 来指定您要为文件命名的内容。我看到过这样的建议:-o "somefile $(date +\"
我是一名优秀的程序员,十分优秀!