python - 在进程之间共享不断发展的字典-6ren

python - 在进程之间共享不断发展的字典

转载作者：太空狗更新时间：2023-10-29 21:57:55

38

4

问题呈现

我面临多处理问题。很大一部分multiprocessing stack overflow的问题没有我的情况复杂，就不答了。有些人投票可能与 this 重复问题，但我的情况不同，在我的情况下，共享 DICT 在进程作业之间修改:

我有一个程序遵循这个简化的生命周期:

A. Initialize DATA dict
B. Initialize 4 subprocess workers
C. Execute code in each workers (worker massively read DATA dict)
D. Wait workers job is done
E. Modify DATA dict content
F. Go to C

性能是问题的一个非常重要的方面。我试验了很多有正反两方面的解决方案:

简单的全局字典(不工作)

在步骤 B 中，DICT 变量被派生到子进程环境中。但是在步骤 E 之后子进程看不到变化。

使用 multiprocessing.Manager 字典

在步骤 A dict 中使用 multiprocessing.Manager 创建(参见“服务器进程”here)。

优点:易于使用
缺点:multiprocessing.Manager 使用序列化层(我不太了解它，但它能够与网络上的进程一起工作)，这对表现。

使用多个 multiprocessing.Value 和 multiprocessing.Array 代替字典

multiprocessing.Value 和 multiprocessing.Array 允许使用共享内存。我尝试用多个 multiprocessing.Value 和 multiprocessing.Array 替换我的字典，如下所示:

用字典:

manager = multiprocessing.Manager()
dict = manager.dict()
dict['positions'] = [42, 165]
dict['on_position_42'] = 1555897
dict['on_position_165'] = 1548792

用 multiprocessing.Value 和 multiprocessing.Array 替换了 dict:

positions = multiprocessing.Array('i', [42, 165])
on_position_42 = multiprocessing.Value('i', 1555897)
on_position_165 = multiprocessing.Value('i', 1548792)

但是在步骤 E 我需要创建新的 multiprocessing.Value 和 multiprocessing.Array，例如:

positions.value = [42, 165, 322]
# create new multiprocessing.Value for 322
on_position_322 = multiprocessing.Value('i', 2258777)

然后在步骤 C 中，on_position_322 将对工作人员未知。如果我尝试通过管道将 multiprocessing.Value 或 multiprocessing.Array 发送到子进程，将导致“同步对象只能通过继承在进程之间共享”错误。

优点:性能
缺点:如何“通知”子进程新的 multiprocessing.Value 和 multiprocessing.Array 的存在？

使用memcache或redis等内存数据库

我知道这是可能的，但我必须将内存数据库与 multiprocessing.Manager dict 进行基准测试。

优点:务实和工作
缺点:性能？

问题结论

考虑到创建新的multiprocessing.Value 和多处理.Array ?

或者更一般地说，考虑到这个生命周期，什么是最有效的策略？

注意:我之前尝试过另一种策略，其中步骤 F 是“转到 B”(在每个周期重新创建新工作程序)。但是 worker 的 fork 环境太长了:最大的是 DICT，最长的是 fork。

最佳答案

由于您只是从字典中读取并在主进程中更新它，您可以使用 JoinableQueue 来传递字典并等待工作人员完成。例如

from multiprocessing import Process, JoinableQueue
import time

class Worker(Process):
    def __init__(self, queue):
        super(Worker, self).__init__()
        self.queue = queue

    def run(self):
        for item in iter(self.queue.get, None):
            print item
            time.sleep(2)
            print 'done'
            self.queue.task_done()
        self.queue.task_done()

if __name__ == '__main__':
    request_queue = JoinableQueue()
    num_workers = 4
    workers = []
    d = {}  # A

    for _ in range(num_workers): 
        p = Worker(request_queue) # B
        workers.append(p)
        p.start()


    for i in range(5): # F
        for _ in range(num_workers):
            request_queue.put(d) # C
        request_queue.join()  # D
        d[i] = i  # E

    for w in workers:
        w.terminate()
        w.join()

输出:

{}
{}
{}
{}
done
done
done
done
{0: 0}
{0: 0}
{0: 0}
{0: 0}
done
done
done
done
{0: 0, 1: 1}
{0: 0, 1: 1}
{0: 0, 1: 1}
{0: 0, 1: 1}
done
done
done
done
{0: 0, 1: 1, 2: 2}
{0: 0, 1: 1, 2: 2}
{0: 0, 1: 1, 2: 2}
{0: 0, 1: 1, 2: 2}
done
done
done
done
{0: 0, 1: 1, 2: 2, 3: 3}
{0: 0, 1: 1, 2: 2, 3: 3}
{0: 0, 1: 1, 2: 2, 3: 3}
{0: 0, 1: 1, 2: 2, 3: 3}
done
done
done
done

关于python - 在进程之间共享不断发展的字典，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45959222/

38

4

0

文章推荐： python - 在 Python 脚本中激活 Conda 环境

文章推荐： python - Django 身份验证覆盖不起作用

文章推荐： python - 错误 5 :Access denied PyTesseract

文章推荐： python - 使用 python_dsl 在 elasticsearch 中查询数组数据类型

字典 .title() 中的 Python 字典
我只想国家和资本化的值(value)。这是我的完整代码: cities = { 'rotterdam': { 'country': 'netherlands',
vba - Excel VBA - 字典.Exists(字典)？
想更好地了解如何比较对象类型的键。 dicOverall.exists(dic2) 返回 False，而 dicOverall.exists(dic1) 返回 True。我不太确定 .Exists 如
Python - 字典
我是编程和 python 的新手，我不知道如何解决这个问题。 my_dict = {'tiger': ['claws', 'sharp teeth', 'four legs', 'stripes'
JavaScript 字典
这个问题已经有答案了: Accessing an object property with a dynamically-computed name (19 个回答) 已关闭 8 年前。我引用了这篇文
Python数据结构，字典？
希望有人能帮忙。我正在使用 Python，我希望能够执行以下操作。我有一组对象(例如形状)和一系列作用于这些对象的命令。命令的格式为命令字符串，后跟可变数量的参数，可以是字符串或整数例如形状“矩形
Python内存管理——字典
我在文件中保存了一本字典。我从 python 交互式 shell 将字典加载到内存中，我的系统监视器显示 python 进程消耗了 4GB。以下命令提供以下输出: size1 = sys.getsiz
仅当定义了值时才更新 Python 字典
如果我运行以下代码: import json foo = [ { "name": "Bob", "occupation": "", "stand
r - 将所有列名及其索引对保存为数据框/字典
我尝试获取列名及其索引，并将结果保存为数据框或字典: df <- data.frame(a=rnorm(10), b=rnorm(10), c=rnorm(10)) 我该怎么做？谢谢。 column
python - 字典，从键中调用值
我正在尝试获取输入，如果字典 logins 有一个与我的输入匹配的键，我想返回该键的值。 logins = { 'admin':'admin', 'turtle':'password1
Perl CPAN 字典
在 Perl 世界中有一个很棒的东西叫做 CPAN .它是开源 Perl 库的大型存储。我使用来自 CPAN 的模块，我已经发布了 several distributions myself . 我使
Python "valueless"字典
这个问题已经有答案了: Is there a Python dict without values? (3 个回答) 已关闭 3 年前。我有一个问题，我想跟踪大量值。如果我从未遇到过该值，我将执行操
.net - 使用带有字符串键和不区分大小写的搜索的哈希表/字典
想知道这是否可能。我们有一个第 3 方库，其中包含有关用户的识别信息... 与库的主要交互是通过一个以字符串为键的 HashTable，并返回该键的信息对象图。问题是， key 显然是区分大小写的
F#:字典、哈希表和映射之间的区别
我是 .NET 编程的新手。对不起，如果这个问题以前被问过。我目前正在学习 F#。 Dictionary、Hashtable 和 Map 之间有什么区别？我应该什么时候使用？我还有一个标题中没有提
opencv - 使用功能包进行分类的词汇/字典
我正在尝试使用SVM进行3类分类。为此，我正在SVM培训期间准备词汇表。但是，由于我在SVM预测期间获得随机结果，因此我怀疑我的词汇创建方法中存在一些问题。我创建词汇的代码如下: //Mat trai
r - 为什么R的关联数组被称为列表而不是映射/字典
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
python - 字典:如何列出包含某个值的每个关键路径？
假设我有一个以下形式的嵌套字典: {'geo': {'bgcolor': 'white','lakecolor': 'white','caxis': {'gridcolor': 'white', 'l
java - 字典:硬编码与外部文件
我有一个 java 应用程序，每秒启动和停止数亿个项目(从外部脚本调用)多次。 Input: String key Output: int value 此应用程序的目的是在从未永远改变的Map(约30
excel - 字典、集合和数组的比较
我正在尝试找出字典与集合和数组相比的相对优势和功能。我发现了一篇很棒的文章here但找不到一个简单的表格来比较所有不同的功能。有人知道吗？最佳答案请参阅下表，对集合和字典进行有用的比较。 (该
具有默认值的 .net 字典
我想要一个字典，它可以为字典中没有的任何键返回一个指定的值，例如: var dict = new DictWithDefValues("not specified"); dict.Add("bob78
python - 多个函数中的相同列表/字典
我是 python 新手，目前仍在学习如何处理列表和字典。我有这两个功能 def food_database(item_name, size_serv, calorie_serv, prot

首页

博学

6Ren·AI

商城