python面向对象多线程爬虫爬取搜狐页面的实例代码-6ren

python面向对象多线程爬虫爬取搜狐页面的实例代码

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章python面向对象多线程爬虫爬取搜狐页面的实例代码由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

首先我们需要几个包：requests, lxml, bs4, pymongo, redis 。

1. 创建爬虫对象，具有的几个行为：抓取页面，解析页面，抽取页面，储存页面。

 
    ? 
   
         class 
         Spider( 
         object 
         ): 
        
         def 
         __init__( 
         self 
         ): 
        
         # 状态(是否工作) 
        
         self 
         .status  
         = 
         SpiderStatus.IDLE 
        
         # 抓取页面 
        
         def 
         fetch( 
         self 
         , current_url): 
        
         pass 
        
         # 解析页面 
        
         def 
         parse( 
         self 
         , html_page): 
        
         pass 
        
         # 抽取页面 
        
         def 
         extract( 
         self 
         , html_page): 
        
         pass 
        
         # 储存页面 
        
         def 
         store( 
         self 
         , data_dict): 
        
         pass

2. 设置爬虫属性，没有在爬取和在爬取中，我们用一个类封装， @unique使里面元素独一无二，Enum和unique需要从 enum里面导入:

 
    ? 
   
         @unique 
        
         class 
         SpiderStatus(Enum): 
        
         IDLE  
         = 
         0 
        
         WORKING  
         = 
         1

3. 重写多线程的类:

 
    ? 
   
         class 
         SpiderThread(Thread): 
        
         def 
         __init__( 
         self 
         , spider, tasks): 
        
         super 
         ().__init__(daemon 
         = 
         True 
         ) 
        
         self 
         .spider  
         = 
         spider 
        
         self 
         .tasks  
         = 
         tasks 
        
         def 
         run( 
         self 
         ): 
        
         while 
         True 
         : 
        
         pass

4. 现在爬虫的基本结构已经做完了，在main函数创建tasks， Queue需要从queue里面导入:

 
    ? 
   
         def 
         main(): 
        
         # list没有锁，所以使用Queue比较安全, task_queue=[]也可以使用,Queue 是先进先出结构, 即 FIFO 
        
         task_queue  
         = 
         Queue() 
        
         # 往队列放种子url, 即搜狐手机端的url 
        
         task_queue.put( 
         'http://m.sohu,com/' 
         ) 
        
         # 指定起多少个线程 
        
         spider_threads  
         = 
         [SpiderThread(Spider(), task_queue)  
         for 
         _  
         in 
         range 
         ( 
         10 
         )] 
        
         for 
         spider_thread  
         in 
         spider_threads: 
        
         spider_thread.start() 
        
         # 控制主线程不能停下,如果队列里有东西，任务不能停, 或者spider处于工作状态，也不能停 
        
         while 
         task_queue.empty()  
         or 
         is_any_alive(spider_threads): 
        
         pass 
        
         print 
         ( 
         'Over' 
         )

4-1. 而 is_any_threads则是判断线程里是否有spider还活着，所以我们再写一个函数来封装一下

 
    ? 
   
         def 
         is_any_alive(spider_threads): 
        
         return 
         any 
         ([spider_thread.spider.status  
         = 
         = 
         SpiderStatus.WORKING 
        
         for 
         spider_thread  
         in 
         spider_threads])

5. 所有的结构已经全部写完，接下来就是可以填补爬虫部分的代码，在SpiderThread(Thread)里面，开始写爬虫运行 run 的方法，即线程起来后，要做的事情:

 
    ? 
   
         def 
         run( 
         self 
         ): 
        
         while 
         True 
         : 
        
         # 获取url 
        
         current_url  
         = 
         self 
         .tasks_queue.get() 
        
         visited_urls.add(current_url) 
        
         # 把爬虫的status改成working 
        
         self 
         .spider.status  
         = 
         SpiderStatus.WORKING 
        
         # 获取页面 
        
         html_page  
         = 
         self 
         .spider.fetch(current_url) 
        
         # 判断页面是否为空 
        
         if 
         html_page  
         not 
         in 
         [ 
         None 
         , '']: 
        
         # 去解析这个页面, 拿到列表 
        
         url_links  
         = 
         self 
         .spider.parse(html_page) 
        
         # 把解析完的结构加到 self.tasks_queue里面来 
        
         # 没有一次性添加到队列的方法 用循环添加算求了 
        
         for 
         url_link  
         in 
         url_links: 
        
         self 
         .tasks_queue.put(url_link) 
        
         # 完成任务，状态变回IDLE 
        
         self 
         .spider.status  
         = 
         SpiderStatus.IDLE

6. 现在可以开始写 Spider()这个类里面的四个方法，首先写fetch()抓取页面里面的：。

 
    ? 
   
         @Retry 
         () 
        
         def 
         fetch( 
         self 
         , current_url,  
         * 
         , charsets 
         = 
         ( 
         'utf-8' 
         , ), user_agent 
         = 
         None 
         , proxies 
         = 
         None 
         ): 
        
         thread_name  
         = 
         current_thread().name 
        
         print 
         (f 
         '[{thread_name}]: {current_url}' 
         ) 
        
         headers  
         = 
         { 
         'user-agent' 
         : user_agent}  
         if 
         user_agent  
         else 
         {} 
        
         resp  
         = 
         requests.get(current_url, 
        
         headers 
         = 
         headers, proxies 
         = 
         proxies) 
        
         # 判断状态码，只要200的页面 
        
         return 
         decode_page(resp.content, charsets) \ 
        
         if 
         resp.status_code  
         = 
         = 
         200 
         else 
         None

6-1. decode_page是我们在类的外面封装一个解码的函数:

 
    ? 
   
         def 
         decode_page(page_bytes, charsets 
         = 
         ( 
         'utf-8' 
         ,)): 
        
         page_html  
         = 
         None 
        
         for 
         charset  
         in 
         charsets: 
        
         try 
         : 
        
         page_html  
         = 
         page_bytes.decode(charset) 
        
         break 
        
         except 
         UnicodeDecodeError: 
        
         pass 
        
         # logging.error('Decode:', error) 
        
         return 
         page_html

6-2. @retry是装饰器，用于重试, 因为需要传参，在这里我们用一个类来包装, 所以最后改成@Retry()

 
    ? 
   
         # retry的类，重试次数3次，时间5秒(这样写在装饰器就不用传参数类), 异常 
        
         class 
         Retry( 
         object 
         ): 
        
         def 
         __init__( 
         self 
         ,  
         * 
         , retry_times 
         = 
         3 
         , wait_secs 
         = 
         5 
         , errors 
         = 
         (Exception, )): 
        
         self 
         .retry_times  
         = 
         retry_times 
        
         self 
         .wait_secs  
         = 
         wait_secs 
        
         self 
         .errors  
         = 
         errors 
        
         # call 方法传参 
        
         def 
         __call__( 
         self 
         , fn): 
        
         def 
         wrapper( 
         * 
         args,  
         * 
         * 
         kwargs): 
        
         for 
         _  
         in 
         range 
         ( 
         self 
         .retry_times): 
        
         try 
         : 
        
         return 
         fn( 
         * 
         args,  
         * 
         * 
         kwargs) 
        
         except 
         self 
         .errors as e: 
        
         # 打日志 
        
         logging.error(e) 
        
         # 最小避让 self.wait_secs 再发起请求(最小避让时间) 
        
         sleep((random()  
         + 
         1 
         )  
         * 
         self 
         .wait_secs) 
        
         return 
         None 
        
         return 
         wrapper()

7. 接下来写解析页面的方法，即 parse()

 
    ? 
   
         # 解析页面 
        
         def 
         parse( 
         self 
         , html_page,  
         * 
         , domain 
         = 
         'm.sohu.com' 
         ): 
        
         soup  
         = 
         BeautifulSoup(html_page,  
         'lxml' 
         ) 
        
         url_links  
         = 
         [] 
        
         # 找body的有 href 属性的 a 标签 
        
         for 
         a_tag  
         in 
         soup.body.select( 
         'a[href]' 
         ): 
        
         # 拿到这个属性 
        
         parser  
         = 
         urlparse(a_tag.attrs[ 
         'href' 
         ]) 
        
         netloc  
         = 
         parser.netloc  
         or 
         domain 
        
         scheme  
         = 
         parser.scheme  
         or 
         'http' 
        
         netloc  
         = 
         parser.netloc  
         or 
         'm.sohu.com' 
        
         # 只爬取 domain 底下的 
        
         if 
         scheme ! 
         = 
         'javascript' 
         and 
         netloc  
         = 
         = 
         domain: 
        
         path  
         = 
         parser.path 
        
         query  
         = 
         '?' 
         + 
         parser.query  
         if 
         parser.query  
         else 
         '' 
        
         full_url  
         = 
         f 
         '{scheme}://{netloc}{path}{query}' 
        
         if 
         full_url  
         not 
         in 
         visited_urls: 
        
         url_links.append(full_url) 
        
         return 
         url_links

7-1. 我们需要在SpiderThread()的 run方法里面，在。

 
    ? 
   
         current_url  
         = 
         self 
         .tasks_queue.get()

下面添加。

 
    ? 
   
         visited_urls.add(current_url)

在类外面再添加一个。

 
    ? 
   
         visited_urls  
         = 
         set 
         ()去重

8. 现在已经能开始抓取到相应的网址.

python面向对象多线程爬虫爬取搜狐页面的实例代码

总结。

以上所述是小编给大家介绍的python面向对象多线程爬虫爬取搜狐页面的实例代码，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我网站的支持！。

原文链接：https://www.tuicool.com/articles/URva2ey 。

最后此篇关于python面向对象多线程爬虫爬取搜狐页面的实例代码的文章就讲到这里了,如果你想了解更多关于python面向对象多线程爬虫爬取搜狐页面的实例代码的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：用vbs实现重新启动 Internet Explorer

文章推荐： Python获取昨天、今天、明天开始、结束时间戳的方法

文章推荐：用vbs读取文本文件的最后一行

文章推荐：用vbs更改 Internet Explorer 的标题栏

c# - 取 'First'空格字符前后的字符串
我在字符串中有一个大词。例子白 Wine 额外优惠。我想在第一行使用“White”，在第二行使用“wine extra offer”。使用下面的代码: string value="White win
取 INT_MIN 绝对值的正确方法
我想在无符号中执行一些算术运算，需要取负整数的绝对值，比如 do_some_arithmetic_in_unsigned_mode(int some_signed_value) { unsign
r - 带向量函数的数据表聚合，取 2
我正在努力使用 data.table 来总结向量函数的结果，这在 ddply 中很容易。问题 1:使用带有矢量输出的(昂贵的)函数聚合 dt dt[ , as.list(quantile(x)),
logarithm - 使用对数避免数值下溢的算术问题(取 2)
我有两个分数列表；说 A = [ 1/212, 5/212, 3/212, ... ] 和 B = [ 4/143, 7/143, 2/143, ... ] . 如果我们定义 A' = a[0] *
python - 取 numpy 数组中列的平均值
我已经使用 numpy 从 csv 文件中获取数据。 numpy 数组的尺寸为:100*20。我如何取列的平均值(比如 col 3,5,8)并用包含这 3 个 cols 平均值的新列替换它们如果
rust - 取 n 次根
在 Rust 中取任意数的 n 次根的最佳方法是什么？例如，num crate 只允许取整数类型的第 n 个主根，即 floor'ed 或 ceil'ed 值......如何最好地接近实际值？最佳答
r - 取 dplyr 中字符串定义的变量的平均值
看起来这应该很容易，但我很困惑。我已经掌握了使用 dplyr 进行编程的大致技巧0.7，但为此苦苦挣扎:How do Iprogram in dplyr我想要编程的变量是否是一个字符串？我正在抓取数
rust - 取 n 次根
在 Rust 中取任意数的 n 次根的最佳方法是什么？例如，num crate 只允许取整数类型的第 n 个主根，即 floor'ed 或 ceil'ed 值......如何最好地接近实际值？最佳答
python - 取 pandas 数据框中一系列行的平均值
我有一个 pandas 数据框，其中有一列名为“coverage”。对于一系列特定索引值，我想获取前 100 行的平均“覆盖率”值。例如，对于索引位置 1001，我想要第 901-1000 行的平均“
python - 取 pandas 中两个时间戳范围条件的交集
import pandas as pd data = {'date': ['1998-03-01', '2001-04-01','1998-06-01','2001-08-01','2001-05-0
ios - 取 NSArray 段的平均值
我有一个包含 100 个数字的 NSArray。我想创建一个 5 个数字的 NSArray。第二个数组中的第一个数字是第一个数组中前 20 个数字的平均值。第二个数字是第一个数组中第二组 20 个数字
iphone - 取 CGFloat 的绝对值
我该怎么做？我试过 abs() 但它只适用于整数。有内置的方法吗？ CGFloat flo = -123; abs(flo) 返回 0 最佳答案使用 fabs() CGFloat f = -123.
scala - 取 UInt 的 log2Ceil
我正在采用以下计算的 log2: tl_out.a.bits.size := log2Ceil(s1_row * s2_column * 4.U) 其中，s1_row 和 s2_column 是 UI
c# - 取 n 个元素。结束的从头开始
如何从 m 个元素集合中取出 n 个元素，以便在元素用完时从头开始？ List list = new List() {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; List newL
java - ObjectOutputStream 取 BufferedOutputStream 时不写入对象
我已经完成了研究，但似乎找不到有关该主题的足够文档。在 Object streams 上尝试一些代码时，我注意到将 BufferedOutputStream 放入 ObjectOutputStrea
python - 取 pandas groupby 中不同大小的组之间的差异
我需要计算数据中连续时间组之间的差异，如下所示 from io import StringIO import pandas as pd strio = StringIO("""\
javascript - Mongoose - 取 [Number] 的总和并将新属性添加到同一文档
我在 Mongo 数据库中有以下文档: { _id: 1, question: "Blue or red?", __v: 0, votes: [9, 5] } 我想在后
css - 浏览器兼容的自动换行和空格 : pre?(取 2)
好吧，宇宙中一定有人知道这个问题的答案。我已经在这里问过这个问题，但仍然没有解决方案。我需要保留和换行 div 中的文本。到目前为止，我很难想出解决方案。我找到的最佳解决方案并不适用于所有浏览器。
java - 取 3 个整数，创建一个日期
我正在尝试采用 3 个单独的整数输入(年、月、日)并采用这 3 个条目并从中形成一个日期对象，以便我可以使用它来比较其他日期。这是我目前所拥有的，不知从何而来: public void compar
ios - 取 NSString 占位符的 C 函数宏
在我的 IOS 项目中，我有一个包含该函数的自定义 Logger 类(单例) - (void)log:(NSString *)domain logLevel:(int)level logMessage

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python面向对象多线程爬虫爬取搜狐页面的实例代码