php与python实现的线程池多线程爬虫功能示例-6ren

php与python实现的线程池多线程爬虫功能示例

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章php与python实现的线程池多线程爬虫功能示例由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

本文实例讲述了php与python实现的线程池多线程爬虫功能。分享给大家供大家参考，具体如下:

多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下:

php例子。

 
    ? 
   
         <?php 
        
         class 
         Connect  
         extends 
         Worker  
         //worker模式 
        
         { 
        
         public 
         function 
         __construct() 
        
         { 
        
         } 
        
         public 
         function 
         getConnection() 
        
         { 
        
         if 
         (!self:: 
         $ch 
         ) 
        
         { 
        
         self:: 
         $ch 
         = curl_init(); 
        
         curl_setopt(self:: 
         $ch 
         , CURLOPT_TIMEOUT, 2); 
        
         curl_setopt(self:: 
         $ch 
         , CURLOPT_RETURNTRANSFER, 1); 
        
         curl_setopt(self:: 
         $ch 
         , CURLOPT_HEADER, 0); 
        
         curl_setopt(self:: 
         $ch 
         , CURLOPT_NOSIGNAL, true); 
        
         curl_setopt(self:: 
         $ch 
         , CURLOPT_USERAGENT,  
         "Firefox" 
         ); 
        
         curl_setopt(self:: 
         $ch 
         , CURLOPT_FOLLOWLOCATION, 1); 
        
         } 
        
         /* do some exception/error stuff here maybe */ 
        
         return 
         self:: 
         $ch 
         ; 
        
         } 
        
         public 
         function 
         closeConnection() 
        
         { 
        
         curl_close(self:: 
         $ch 
         ); 
        
         } 
        
         /** 
        
         * Note that the link is stored statically, which for pthreads, means thread local 
        
         * */ 
        
         protected 
         static 
         $ch 
         ; 
        
         } 
        
         class 
         Query  
         extends 
         Threaded 
        
         { 
        
         public 
         function 
         __construct( 
         $url 
         ) 
        
         { 
        
         $this 
         ->url =  
         $url 
         ; 
        
         } 
        
         public 
         function 
         run() 
        
         { 
        
         $ch 
         =  
         $this 
         ->worker->getConnection(); 
        
         curl_setopt( 
         $ch 
         , CURLOPT_URL,  
         $this 
         ->url); 
        
         $page 
         = curl_exec( 
         $ch 
         ); 
        
         $info 
         = curl_getinfo( 
         $ch 
         ); 
        
         $error 
         = curl_error( 
         $ch 
         ); 
        
         $this 
         ->deal_data( 
         $this 
         ->url,  
         $page 
         ,  
         $info 
         ,  
         $error 
         ); 
        
         $this 
         ->result =  
         $page 
         ; 
        
         } 
        
         function 
         deal_data( 
         $url 
         ,  
         $page 
         ,  
         $info 
         ,  
         $error 
         ) 
        
         { 
        
         $parts 
         =  
         explode 
         ( 
         "." 
         ,  
         $url 
         ); 
        
         $id 
         =  
         $parts 
         [1]; 
        
         if 
         ( 
         $info 
         [ 
         'http_code' 
         ] != 200) 
        
         { 
        
         $this 
         ->show_msg( 
         $id 
         ,  
         $error 
         ); 
        
         }  
         else 
        
         { 
        
         $this 
         ->show_msg( 
         $id 
         ,  
         "OK" 
         ); 
        
         } 
        
         } 
        
         function 
         show_msg( 
         $id 
         ,  
         $msg 
         ) 
        
         { 
        
         echo 
         $id 
         . 
         "\t$msg\n" 
         ; 
        
         } 
        
         public 
         function 
         getResult() 
        
         { 
        
         return 
         $this 
         ->result; 
        
         } 
        
         protected 
         $url 
         ; 
        
         protected 
         $result 
         ; 
        
         } 
        
         function 
         check_urls_multi_pthreads() 
        
         { 
        
         global 
         $check_urls 
         ;  
         //定义抓取的连接 
        
         $check_urls 
         =  
         array 
         (  
         'http://xxx.com' 
         =>  
         "xx网" 
         ,); 
        
         $pool 
         =  
         new 
         Pool(10,  
         "Connect" 
         ,  
         array 
         ());  
         //建立10个线程池 
        
         foreach 
         ( 
         $check_urls 
         as 
         $url 
         =>  
         $name 
         ) 
        
         { 
        
         $pool 
         ->submit( 
         new 
         Query( 
         $url 
         )); 
        
         } 
        
         $pool 
         ->shutdown(); 
        
         } 
        
         check_urls_multi_pthreads(); 
        
         python 多线程 
        
         def handle(sid): 
         //这个方法内执行爬虫数据处理 
        
         pass 
        
         class 
         MyThread(Thread): 
        
         "" 
         "docstring for ClassName" 
         "" 
        
         def __init__(self, sid): 
        
         Thread.__init__(self) 
        
         self.sid = sid 
        
         def run(): 
        
         handle(self.sid) 
        
         threads = [] 
        
         for 
         i in xrange(1,11): 
        
         t = MyThread(i) 
        
         threads.append(t) 
        
         t.start() 
        
         for 
         t in threads: 
        
         t.join()

python 线程池爬虫:

 
    ? 
   
         from 
         queue  
         import 
         Queue 
        
         from 
         threading  
         import 
         Thread, Lock 
        
         import 
         urllib.parse 
        
         import 
         socket 
        
         import 
         re 
        
         import 
         time 
        
         seen_urls  
         = 
         set 
         ([ 
         '/' 
         ]) 
        
         lock  
         = 
         Lock() 
        
         class 
         Fetcher(Thread): 
        
         def 
         __init__( 
         self 
         , tasks): 
        
         Thread.__init__( 
         self 
         ) 
        
         self 
         .tasks  
         = 
         tasks 
        
         self 
         .daemon  
         = 
         True 
        
         self 
         .start() 
        
         def 
         run( 
         self 
         ): 
        
         while 
         True 
         : 
        
         url  
         = 
         self 
         .tasks.get() 
        
         print 
         (url) 
        
         sock  
         = 
         socket.socket() 
        
         sock.connect(( 
         'localhost' 
         ,  
         3000 
         )) 
        
         get  
         = 
         'GET {} HTTP/1.0\r\nHost: localhost\r\n\r\n' 
         . 
         format 
         (url) 
        
         sock.send(get.encode( 
         'ascii' 
         )) 
        
         response  
         = 
         b'' 
        
         chunk  
         = 
         sock.recv( 
         4096 
         ) 
        
         while 
         chunk: 
        
         response  
         + 
         = 
         chunk 
        
         chunk  
         = 
         sock.recv( 
         4096 
         ) 
        
         links  
         = 
         self 
         .parse_links(url, response) 
        
         lock.acquire() 
        
         for 
         link  
         in 
         links.difference(seen_urls): 
        
         self 
         .tasks.put(link) 
        
         seen_urls.update(links) 
        
         lock.release() 
        
         self 
         .tasks.task_done() 
        
         def 
         parse_links( 
         self 
         , fetched_url, response): 
        
         if 
         not 
         response: 
        
         print 
         ( 
         'error: {}' 
         . 
         format 
         (fetched_url)) 
        
         return 
         set 
         () 
        
         if 
         not 
         self 
         ._is_html(response): 
        
         return 
         set 
         () 
        
         urls  
         = 
         set 
         (re.findall(r 
         '''(?i)href=["']?([^\s"'<>]+)''' 
         , 
        
         self 
         .body(response))) 
        
         links  
         = 
         set 
         () 
        
         for 
         url  
         in 
         urls: 
        
         normalized  
         = 
         urllib.parse.urljoin(fetched_url, url) 
        
         parts  
         = 
         urllib.parse.urlparse(normalized) 
        
         if 
         parts.scheme  
         not 
         in 
         (' 
         ', ' 
         http 
         ', ' 
         https'): 
        
         continue 
        
         host, port  
         = 
         urllib.parse.splitport(parts.netloc) 
        
         if 
         host  
         and 
         host.lower()  
         not 
         in 
         ( 
         'localhost' 
         ): 
        
         continue 
        
         defragmented, frag  
         = 
         urllib.parse.urldefrag(parts.path) 
        
         links.add(defragmented) 
        
         return 
         links 
        
         def 
         body( 
         self 
         , response): 
        
         body  
         = 
         response.split(b 
         '\r\n\r\n' 
         ,  
         1 
         )[ 
         1 
         ] 
        
         return 
         body.decode( 
         'utf-8' 
         ) 
        
         def 
         _is_html( 
         self 
         , response): 
        
         head, body  
         = 
         response.split(b 
         '\r\n\r\n' 
         ,  
         1 
         ) 
        
         headers  
         = 
         dict 
         (h.split( 
         ': ' 
         )  
         for 
         h  
         in 
         head.decode().split( 
         '\r\n' 
         )[ 
         1 
         :]) 
        
         return 
         headers.get( 
         'Content-Type' 
         , ' 
         ').startswith(' 
         text 
         / 
         html') 
        
         class 
         ThreadPool: 
        
         def 
         __init__( 
         self 
         , num_threads): 
        
         self 
         .tasks  
         = 
         Queue() 
        
         for 
         _  
         in 
         range 
         (num_threads): 
        
         Fetcher( 
         self 
         .tasks) 
        
         def 
         add_task( 
         self 
         , url): 
        
         self 
         .tasks.put(url) 
        
         def 
         wait_completion( 
         self 
         ): 
        
         self 
         .tasks.join() 
        
         if 
         __name__  
         = 
         = 
         '__main__' 
         : 
        
         start  
         = 
         time.time() 
        
         pool  
         = 
         ThreadPool( 
         4 
         ) 
        
         pool.add_task( 
         "/" 
         ) 
        
         pool.wait_completion() 
        
         print 
         ( 
         '{} URLs fetched in {:.1f} seconds' 
         . 
         format 
         ( 
         len 
         (seen_urls),time.time()  
         - 
         start))

希望本文所述对大家PHP程序设计有所帮助.

最后此篇关于php与python实现的线程池多线程爬虫功能示例的文章就讲到这里了,如果你想了解更多关于php与python实现的线程池多线程爬虫功能示例的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： VC运用OPENGL加载BMP纹理图的实现方法汇总

文章推荐：优雅女生好听的网名唯美意境阳光定格美丽

文章推荐： QQ个性网网名女生精选很文艺的与你对坐饮茶

文章推荐： php实现的SSO单点登录系统接入功能示例分析

css - 如何在CSS中用一种颜色绘制一半对 Angular 线，用另一种颜色绘制另一半对 Angular 线
我将 Bootstrap 与 css 和 java 脚本结合使用。在不影响前端代码的情况下，我真的很难在css中绘制这个背景。在许多问题中，人们将宽度和高度设置为 0%。但是由于我的导航栏，我不能使用
c - scanf ("%79[^\n]",line); 之间的区别vs scanf ("%79[^\n]\n"，线) vs scanf ("%79[^\n]s"，线)
我正在用 c 编写一个程序来读取文件的内容。代码如下: #include void main() { char line[90]; while(scanf("%79[^\
Javascript获取矩阵数组的对 Angular 线
我想使用 javascript 获取矩阵数组的所有对 Angular 线。假设输入输出如下: input = [ [1,2,3], [4,5,6], [7,8,9], ] output =
pdfmake - 线，圆和其他形状？
可以用pdfmake绘制lines，circles和other shapes吗？如果是，是否有documentation或样本？我想用jsPDF替换pdfmake。最佳答案是的，有可能。 pdfm
svg - 如何制作带有边框的SVG“线”？
我有一个小svg小部件，其目的是显示角度列表（参见图片）。现在，角度是线元素，仅具有笔触，没有填充。但是现在我想使用一种“内部填充”颜色和一种“笔触/边框”颜色。我猜想line元素不能解决这个问题，
java - 线-三角形交点检查返回错误的交点
我正在为带有三角对象的 3D 场景编写一个非常基本的光线转换器，一切都工作正常，直到我决定尝试从场景原点 (0/0/0) 以外的点转换光线。但是，当我将光线原点更改为 (0/1/0) 时，相交测试突
Python Shebang 线
这个问题已经有答案了: Why do people write "#!/usr/bin/env python" on the first line of a Python script? (22 个回
java - 如何在屏幕上绘制星号(*)线？
如何使用大约 50 个星号 * 并使用 for 循环绘制一条水平线？当我尝试这样做时，结果是垂直(而不是水平)列出 50 个星号。 public void drawAstline() { f
java - 球不动；线？
这是一个让球以对角线方式下降的 UI，但球保持静止；线程似乎无法正常工作。你能告诉我如何让球移动吗？请下载一个球并更改目录，以便程序可以找到您的球的分配位置。没有必要下载足球场，但如果您愿意，也可以
ant - Jmeter和Ant报90%线
我在我的一个项目中使用 Jmeter 和 Ant，当我们生成报告时，它会在报告中显示 URL、#Samples、失败、成功率、平均时间、最短时间、最长时间。我也想在报告中包含 90% 的时间线。现
Java Swing 线
我有一个不寻常的问题，希望有人能帮助我。我想用 Canvas (android) 画一条 Swing 或波浪线，但我不知道该怎么做。它将成为蝌蚪的尾部，所以理想情况下我希望它的形状更像三角形，一端更大
javafx粗笔画路径(线)与圆之间的碰撞问题
这个问题已经有答案了: Checking Collision of Shapes with JavaFX (1 个回答) 已关闭 8 年前。我正在使用 JavaFx 8 库。我的任务很简单:我想检
bash - 如何按编号的百分比拆分文件。线？
如何按编号的百分比拆分文件。行数？假设我想将我的文件分成 3 个部分(60%/20%/20% 部分)，我可以手动执行此操作，-_-: $ wc -l brown.txt 57339 brown.tx
圆圈之间的 HTML 线
我正在努力实现这样的目标: 但这就是我设法做到的。你能帮我实现预期的结果吗？更新: 如果我删除 bootstrap.css 依赖项，问题就会消失。我怎样才能让它与 Bootstrap 一起工作？
css - 转换比例导致间隙/线
我目前正在构建一个网站，但遇到了 transform: scale 的问题。我有一个按钮，当用户将鼠标悬停在它上面时，会发生两件事: 背景以对 Angular 线“扫过” 按钮标签颜色改变按钮稍微变
macos - 非常快速地绘制图形(线)
我需要使用直线和仿射变换绘制大量数据点的图形(缩放图形以适合 View )。目前，我正在使用 NSBezierPath，但我认为它效率很低(因为点在绘制之前被复制到贝塞尔路径)。通过将我的数据切割成
image - 从车牌上删除多余的像素/线
我正在使用基于 SVM 分类的 HOG 特征检测器。我可以成功提取车牌，但提取的车牌除了车牌号外还有一些不必要的像素/线。我的图像处理流程如下: 在灰度图像上应用 HOG 检测器裁剪检测到的区域调
python - 间隙填充轮廓/线
我有以下图片: 我想填充它的轮廓(即我想在这张图片中填充线条)。我尝试了形态学闭合，但使用大小为 3x3 的矩形内核和 10 迭代并没有填满整个边界。我还尝试了一个 21x21 内核和 1 迭代，但
algorithm - 统计两组序列的交点(线)
我必须找到一种算法，可以找到两组数组之间的交集总数，而其中一个数组已排序。举个例子，我们有这两个数组，我们向相应的数字画直线。这两个数组为我们提供了总共 7 个交集。有什么样的算法可以帮助我解决
c++ - 如何从带有透视投影的近裁剪平面绘制射线/线？
简单地说 - 我想使用透视投影从近裁剪平面绘制一条射线/线到远裁剪平面。我有我认为是使用各种 OpenGL/图形编程指南中描述的方法通过单击鼠标生成的正确标准化的世界坐标。我遇到的问题是我的光线似乎

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

php与python实现的线程池多线程爬虫功能示例