- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个通过话语解析器运行的 80,000 个字符串的列表,为了提高这个过程的速度,我一直在尝试使用 python 多处理包。
解析器代码需要 python 2.7,我目前正在使用字符串的子集在 2 核 Ubuntu 机器上运行它。对于短列表,即 20,该过程在两个核心上运行都没有问题,但是如果我运行大约 100 个字符串的列表,两个工作人员将在不同的点卡住(因此在某些情况下,工作人员 1 直到几分钟才会停止在 worker 2) 之后。这发生在所有字符串完成并返回任何内容之前。每次内核在同一点停止时,使用相同的映射函数,但如果我尝试不同的映射函数,这些点是不同的,即 map vs map_async vs imap。
我尝试删除那些索引处的字符串,这没有任何影响,而且这些字符串在较短的列表中运行良好。根据我包含的 print 语句,当进程似乎卡住时,当前迭代似乎已完成当前字符串,它只是不会移动到下一个字符串。大约需要一个小时的运行时间才能到达两名 worker 都卡住的地方,我无法在更短的时间内重现该问题。涉及多处理命令的代码是:
def main(initial_file, chunksize = 2):
entered_file = pd.read_csv(initial_file)
entered_file = entered_file.ix[:, 0].tolist()
pool = multiprocessing.Pool()
result = pool.map_async(discourse_process, entered_file, chunksize = chunksize)
pool.close()
pool.join()
with open("final_results.csv", 'w') as file:
writer = csv.writer(file)
for listitem in result.get():
writer.writerow([listitem[0], listitem[1]])
if __name__ == '__main__':
main(sys.argv[1])
当我使用 Ctrl-C 停止进程时(这并不总是有效),我收到的错误消息是:
^CTraceback (most recent call last):
File "Combined_Script.py", line 94, in <module>
main(sys.argv[1])
File "Combined_Script.py", line 85, in main
pool.join()
File "/usr/lib/python2.7/multiprocessing/pool.py", line 474, in join
p.join()
File "/usr/lib/python2.7/multiprocessing/process.py", line 145, in join
res = self._popen.wait(timeout)
File "/usr/lib/python2.7/multiprocessing/forking.py", line 154, in wait
return self.poll(0)
File "/usr/lib/python2.7/multiprocessing/forking.py", line 135, in poll
pid, sts = os.waitpid(self.pid, flag)
KeyboardInterrupt
Process PoolWorker-1:
Traceback (most recent call last):
File "/usr/lib/python2.7/multiprocessing/process.py", line 258, in _bootstrap
self.run()
File "/usr/lib/python2.7/multiprocessing/process.py", line 114, in run
self._target(*self._args, **self._kwargs)
File "/usr/lib/python2.7/multiprocessing/pool.py", line 117, in worker
put((job, i, result))
File "/usr/lib/python2.7/multiprocessing/queues.py", line 390, in put
wacquire()
KeyboardInterrupt
^CProcess PoolWorker-2:
Traceback (most recent call last):
File "/usr/lib/python2.7/multiprocessing/process.py", line 258, in _bootstrap
self.run()
File "/usr/lib/python2.7/multiprocessing/process.py", line 114, in run
self._target(*self._args, **self._kwargs)
File "/usr/lib/python2.7/multiprocessing/pool.py", line 117, in worker
put((job, i, result))
File "/usr/lib/python2.7/multiprocessing/queues.py", line 392, in put
return send(obj)
KeyboardInterrupt
Error in atexit._run_exitfuncs:
Traceback (most recent call last):
File "/usr/lib/python2.7/atexit.py", line 24, in _run_exitfuncs
func(*targs, **kargs)
File "/usr/lib/python2.7/multiprocessing/util.py", line 305, in _exit_function
_run_finalizers(0)
File "/usr/lib/python2.7/multiprocessing/util.py", line 274, in _run_finalizers
finalizer()
File "/usr/lib/python2.7/multiprocessing/util.py", line 207, in __call__
res = self._callback(*self._args, **self._kwargs)
File "/usr/lib/python2.7/multiprocessing/pool.py", line 500, in _terminate_pool
outqueue.put(None) # sentinel
File "/usr/lib/python2.7/multiprocessing/queues.py", line 390, in put
wacquire()
KeyboardInterrupt
Error in sys.exitfunc:
Traceback (most recent call last):
File "/usr/lib/python2.7/atexit.py", line 24, in _run_exitfuncs
func(*targs, **kargs)
File "/usr/lib/python2.7/multiprocessing/util.py", line 305, in _exit_function
_run_finalizers(0)
File "/usr/lib/python2.7/multiprocessing/util.py", line 274, in _run_finalizers
finalizer()
File "/usr/lib/python2.7/multiprocessing/util.py", line 207, in __call__
res = self._callback(*self._args, **self._kwargs)
File "/usr/lib/python2.7/multiprocessing/pool.py", line 500, in _terminate_pool
outqueue.put(None) # sentinel
File "/usr/lib/python2.7/multiprocessing/queues.py", line 390, in put
wacquire()
KeyboardInterrupt
当我使用 htop 在另一个命令窗口中查看内存时,一旦工作人员卡住,内存就会低于 3%。这是我第一次尝试并行处理,我不确定我还缺少什么?
最佳答案
我无法解决多处理池的问题,但我遇到了 loky包并能够使用它通过以下几行运行我的代码:
executor = loky.get_reusable_executor(timeout = 200, kill_workers = True)
results = executor.map(discourse_process, entered_file)
关于Python 多处理池 map_async 卡住,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50162249/
我有一个关于 map_async 的有趣问题,我无法弄清楚。 我正在使用带有进程池的 python 多处理库。我正在尝试传递要比较的字符串列表和要与使用 map_async() 的函数进行比较的字符串
我按预期使用map_async - 使用以下方法将可迭代映射到多个处理核心: cores = mp.cpu_count() pool = mp.Pool() r = pool.map_async(fu
我想跳过从 map_async 返回的结果.它们在内存中增长,但我不需要它们。 这是一些代码: def processLine(line): #process something pr
我有一个通过话语解析器运行的 80,000 个字符串的列表,为了提高这个过程的速度,我一直在尝试使用 python 多处理包。 解析器代码需要 python 2.7,我目前正在使用字符串的子集在 2
我使用 iPython 的并行处理工具进行大 map 操作。在等待 map 操作完成时,我想向用户显示有多少作业已完成,有多少正在运行,还有多少剩余。我怎样才能找到这些信息? 这是我的工作。我创建了一
我有以下功能 from multiprocessing import Pool def do_comparison(tupl): x, y = tupl # unpack arguments
调试代码花了我一晚上的时间,终于发现了这个棘手的问题。请看下面的代码。 from multiprocessing import Pool def myfunc(x): return [i fo
使用map和map_async有什么区别?将列表中的项目分配给 4 个进程后,它们是否运行相同的功能? 那么假设两者都异步且并行运行是错误的吗? def f(x): return 2*x p=P
在处理由 pool.map 调用的函数内的数据时,我遇到了非常奇怪的问题。例如,以下代码按预期工作... import csv import multiprocessing import iterto
阅读 multiprocessing.Pool doc我知道 map_async 和 apply_async 是 map 和 appy 的两个版本,应该更快,但是不保证输入的处理顺序与提供的顺序相同。
我正在尝试运行一个与 pool.apply_async 配合得很好的胖函数 现在,我正在尝试 pool.map_async 函数(使用 functools.partial 方法传递了 2 个参数),程
我正在将 800,000 行表读入数据帧。然后,我循环遍历每一列和列中的每一行,以收集统计信息,例如最大长度、最小长度、最大值、不同值等。 我可以使用 SLURM 访问 32 核计算,因此我想使用 p
尝试围绕执行 map_async() 的函数编写一些单元测试手术。更具体地说,我想确认在某个进程中发生异常时某些文件会被清理。下面提供了具有意图的示例伪代码。 foo.py def write_chu
我似乎无法在使用 map_async() 时让我的回调工作。当我使用稍微修改过的代码来循环遍历我的数组时,它会通过 apply_async() 添加任务。从文档看来我应该能够将回调与 map_asyn
我尝试在 python 中将多处理包与池一起使用。 我有一个由 map_async 函数调用的函数 f: from multiprocessing import Pool def f(host, x)
我想要一个长时间运行的进程通过队列(或类似的东西)返回它的进度,我将把它提供给进度条对话框。当过程完成时,我还需要结果。此处的测试示例失败并出现 RuntimeError: Queue objects
我这里有一个奇怪的问题。 我有一个 python 程序,它执行保存在单独的 .py 文件中的代码,这些代码被设计为依次执行,一个接一个。这些代码工作正常,但运行时间太长。我的计划是使用 multipr
因此,我正在开发一个应用程序,每次启动时都必须根据哈希列表检查约 50 GB 的数据。显然这需要并行化,我不希望应用程序在“正在加载...”屏幕上挂起一分半钟。 我正在使用 multiprocessi
我有这样的程序: from multiprocessing import Pool import time def f(x): # I make a heavy code here to take t
下面的代码在 Unix 上完美运行,但在 Windows 7 上生成一个 multiprocessing.TimeoutError(两个操作系统都使用 python 2.7)。 知道为什么吗?谢谢。
我是一名优秀的程序员,十分优秀!