- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试解析包含汽车属性(154 种属性)的网站。我有一个巨大的列表(名称是 liste_test),其中包含 280.000 个二手车公告 URL。
def araba_cekici(liste_test,headers,engine):
for link in liste_test:
try:
page = requests.get(link, headers=headers)
.....
.....
当我这样开始我的代码时:
araba_cekici(liste_test,headers,engine)
它有效并取得了成果。但是大约1个小时,我只能获取1500个URL的属性。它非常慢,我必须使用多处理。
我在 here 上找到了结果与多处理。然后我应用到我的代码,但不幸的是,它不起作用。
import numpy as np
import multiprocessing as multi
def chunks(n, page_list):
"""Splits the list into n chunks"""
return np.array_split(page_list,n)
cpus = multi.cpu_count()
workers = []
page_bins = chunks(cpus, liste_test)
for cpu in range(cpus):
sys.stdout.write("CPU " + str(cpu) + "\n")
# Process that will send corresponding list of pages
# to the function perform_extraction
worker = multi.Process(name=str(cpu),
target=araba_cekici,
args=(page_bins[cpu],headers,engine))
worker.start()
workers.append(worker)
for worker in workers:
worker.join()
它给出:
TypeError: can't pickle _thread.RLock objects
我发现了一些关于这个错误的回应。但是它们都不起作用(至少我不能应用于我的代码)。另外,我尝试了 python 多进程 Pool但不幸的是,它停留在 jupyter notebook 上并且似乎这段代码可以无限工作。
最佳答案
迟到的答案,但由于在 Google 上搜索时出现了这个问题:multiprocessing
通过 multiprocessing.Queue
将数据发送到工作进程,这需要所有数据/发送对象 picklable .
在您的代码中,您尝试传递 header
和 engine
,您没有显示它们的实现。 (由于 header
包含 HTTP 请求 header ,我怀疑 engine
是这里的问题。)要解决您的问题,您要么必须制作 engine
picklable,或者只在工作进程中实例化 engine
。
关于Python3 无法使用多处理对列表中的 _thread.RLock 对象进行腌制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50391854/
我目前正在练习python多线程模块,我写了一些代码如下,但它并没有像我预期的那样工作。 import threading import thread import random import tim
我有这个实现: def mlock(f): '''Method lock. Uses a class lock to execute the method''' def wrapper
我正在 Python 中创建一个实用程序,该实用程序在启动时在单独的线程上从文件中读取数据,以便可以加载其余的 GUI 组件。数据存储到列表中,然后附加到组合框。我如何锁定列表,以便在 def rea
1、多线程同步 由于CPython的python解释器在单线程模式下执行,所以导致python的多线程在很多的时候并不能很好地发挥多核cpu的资源。大部分情况都推荐使用多进程。 python的
我在列表中有一个 multiprocessing.Process 对象的集合,它们都使用我称之为“进程安全队列”的同一个实例来以进程安全(线程安全但与进程) 到父进程的方式,其职责是管理线程。 当子进
Python multiprocessing 模块有一个用于可重入/递归锁的类: from multiprocessing import RLock l = RLock() l.acquire() l
我正在尝试解析包含汽车属性(154 种属性)的网站。我有一个巨大的列表(名称是 liste_test),其中包含 280.000 个二手车公告 URL。 def araba_cekici(liste_
Python中的threading模块提供了两种锁:普通锁和可重入锁。在我看来,如果我需要一把锁,我应该总是更喜欢 RLock 而不是 Lock;主要是为了防止出现死锁情况。 除此之外,我看到两点,何
阅读我遇到的 Python 文档 RLock。 谁能向我解释(举例)一个场景,其中 RLock会优先于 Lock ? 特别引用: RLock 的“递归级别”。这有什么用? RLock 对象的线程“所有
在此处检查 Stackoverflow 上的所有现有答案后:Checkpointing keras model: TypeError: can't pickle _thread.lock object
这是我的代码 class MusicHandler(object): """ Implements the logic to download musics """ def __ini
阅读了一些类似的问题,其中大多数提到你不应该尝试序列化一个不可序列化的对象。我无法理解这个问题。我可以将模型保存为 .h5 文件,但这并不能达到我想要做的目的。请帮忙! def image_g
from keras.layers import Embedding, Dense, Input, Dropout, Reshape from keras.layers.convolutional i
我有一段来自 this website 的代码它对对象的初始化进行了双重检查锁定。 func checkSyncProducer() { mutex.RLock() if syncPr
Golang 中的 RLock() 和 Lock() 有什么区别,我们在使用互斥锁时如何有效地使用它们? 最佳答案 Lock():通过获取锁,一次只能进行一次读/写。 RLock():多个go rou
这个问题在这里已经有了答案: Importing installed package from script raises "AttributeError: module has no attribu
我使用的是python 3.6 我正在尝试从下面显示的名称 SubmitJobsUsingMultiProcessing() 的类方法内部使用多重处理,该方法进一步依次调用另一个类方法。 我不断遇到此
我目前正在训练神经网络,我尝试存储训练后的模型以备将来使用。该模型基于 keras 的 Sequential(见下文)。我正在使用 joblib.dump(model, output_file_gen
我按照以下代码在 postgres 数据库上实现并行选择查询: https://tech.geoblink.com/2017/07/06/parallelizing-queries-in-postgr
我创建了一个非常简单的 Tensorflow 程序来测试多处理(如下所示),但我不断收到错误: 类型错误:无法pickle _thread.Rlock对象 我注意到,如果我不传入 Tensorflow
我是一名优秀的程序员,十分优秀!