python - Queue.join() 不解锁-6ren

python - Queue.join() 不解锁

转载作者：太空狗更新时间：2023-10-30 01:21:32

35

4

我正在尝试编写用于并行抓取网站的 Python 脚本。我制作了一个可以让我爬到深度的原型(prototype)。

但是，join() 似乎不起作用，我也不知道为什么。

这是我的代码:

from threading import Thread
import Queue
import urllib2
import re
from BeautifulSoup import *
from urlparse import urljoin


def doWork():
    while True:
        try:
            myUrl = q_start.get(False)
        except:
            continue
        try:
            c=urllib2.urlopen(myUrl)
        except:
            continue
        soup = BeautifulSoup(c.read())
        links = soup('a')
        for link in links:
            if('href' in dict(link.attrs)):
                url = urljoin(myUrl,link['href'])
                if url.find("'")!=-1: continue
                url=url.split('#')[0]
                if url[0:4] == 'http':
                    print url
                    q_new.put(url)




q_start = Queue.Queue()

q_new = Queue.Queue()



for i in range(20):
        t = Thread(target=doWork)
        t.daemon = True
        t.start()


q_start.put("http://google.com")
print "loading"
q_start.join()
print "end"

最佳答案

join() will block until task_done() has been called as many times as items have been enqueued .

您不调用 task_done()，因此 join() 会阻塞。在您提供的代码中，调用它的正确位置是在您的 doWork 循环的最后:

def doWork():
  while True:
    task = start_q.get(False)
    ...
    for subtask in processed(task):
      ...
    start_q.task_done()  # tell the producer we completed a task

关于python - Queue.join() 不解锁，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30805216/

35

4

0

文章推荐： python - WebSocketHandler 和 TornadoWebSocketClient 何时完全删除？

文章推荐： c# - 从不同的类绘制到 Windows 窗体中的图片框

Java并发多线程编程——锁
一、公平锁和非公平锁 1.1、公平锁和非公平锁的概述公平锁：指多个线程按照申请锁的顺序来获取锁。非公平锁：指在多线程获取锁的顺序并不是按照申请锁的顺序，有可能后申请的线程比先申请的线程优先获取到锁
MySQL高级9-锁
阅读目录 1、简介 2、分类 3、全局锁 4、表级锁 5、表锁 6、元数据锁
concurrency - 锁/条件变量问题
因此，在我编写的程序中，我有三个函数，为了简单起见，我们将它们称为 A、B 和 C。每个函数都需要访问资源X才能工作。限制是A和B不允许同时运行并且必须适当同步。但是，C 可以与 A 或 B 同时运
concurrency - 锁、互斥量和信号量有什么区别？
我听说过这些与并发编程相关的词，但是锁、互斥量和信号量之间有什么区别？最佳答案锁只允许一个线程进入被锁定的部分，并且该锁不与任何其他进程共享。互斥锁与锁相同，但它可以是系统范围的(由多个进程共享
java - 线程安全单例、锁
这个问题已经有答案了: What is an efficient way to implement a singleton pattern in Java? [closed] (29 个回答) 已关闭
java - 线程安全单例、锁
这个问题已经有答案了: What is an efficient way to implement a singleton pattern in Java? [closed] (29 个回答) 已关闭
事务、锁、隔离级别
我对标题中的主题有几个问题。首先，假设我们使用 JDBC，并且有 2 个事务 T1 和 T2。在 T1 中，我们在一个特定的行上执行 select 语句。然后我们对该行执行更新。在事务 T2 中，我们
MySql:如何在存储过程中使用互斥锁/锁
我希望我的函数只运行一次。这意味着如果多个线程同时调用它，该函数将阻塞所有线程，只允许它运行。最佳答案听起来您希望存储过程进行同步。为什么不直接将同步放在应用程序本身中。 pthread_mute
C# 锁(this)方法
if (runInDemoMode) { lock (this) { //Initalization of tables dCreator.create
java - 挑剔的主机(锁？)
我相信无论使用什么语言都可以考虑我的问题，但是为了有一些“ anchor ”，我将使用 Java 语言来描述它。让我们考虑以下场景:我有一个扩展 Thread 的类 PickyHost 及其实例 p
JavaScript、异步、锁？
我知道异步不是并行的，但我现在遇到了一个非常有趣的情况。 async function magic(){ /* some processing here */ await async () =
java - 在未来的代码中使用同步/锁
我们正在使用 Scala、Play 框架和 MongoDB(以 ReactiveMongo 作为我们的驱动程序)构建一个网络应用程序。应用程序架构是端到端的非阻塞。在我们代码的某些部分，我们需要访问
java - JavaME 锁
我需要一个简单的锁，JavaME 超时(concurrent.lock 的反向移植需要完整的 Java 1.3)。如果其他人已经为 JavaME 发布了经过测试的锁定代码，我宁愿使用它。锁定是出了
c++ - 锁()的实现
根据 boost : To access the object, a weak_ptr can be converted to a shared_ptr using the shared_ptr co
c++ - 锁、互斥和临界区之间的区别
关于 Mutex 和 Critical 部分之间的区别存在一个问题，但它也不处理 Locks。所以我想知道临界区是否可以用于进程之间的线程同步。还有信号状态和非信号状态的含义最佳答案在 Win
c#.NET高级编程高并发必备技巧-锁
锁最为常见的应用就是高并发的情况下，库存的控制。本次只做简单的单机锁介绍。直接看代码：每请求一次库存-1. 假如库存1000，在1000个人请求之后，库存将变为0。
详解python多线程、锁、event事件机制的简单使用
线程和进程 1、线程共享创建它的进程的地址空间,进程有自己的地址空间 2、线程可以访问进程所有的数据，线程可以相互访问 3、线程之间的数据是独立的 4、子进程复制线程的数据 5、子进程启动
这把“锁”不简单，让你畅游数字世界
**摘要：**细心的你也一定关注到，有的网址是https开头的，有的是http。https开头的网站前面，会有一把小锁。这是为什么呢？本文分享自华为云社区《还不知道SSL证书已经是刚需了？赶快来了解
c - 互斥量(锁)的所有权是如何实现的？
试图在 C 中实现一个非常简单的互斥锁(锁)我有点困惑。我知道互斥锁类似于二进制信号量，除了互斥锁还强制执行释放锁的线程的约束，必须是最近获得它的同一线程。我对如何跟踪所有权感到困惑？这是我到目前为
SQL Server 锁 - 避免插入重复条目
在阅读了很多与上述主题相关的文章和答案之后，我仍然想知道 SQL Server 数据库引擎在以下示例中是如何工作的: 假设我们有一个名为 t3 的表: create table t3 (a int ,

首页

博学

6Ren·AI

商城

python - Queue.join() 不解锁