python - 在 Python 中的线程之间共享字典时是否可以避免锁定开销？-6ren

python - 在 Python 中的线程之间共享字典时是否可以避免锁定开销？

转载作者：太空宇宙更新时间：2023-11-04 01:01:25

26

4

我在 Python 中有一个多线程应用程序，其中线程读取非常大(因此我无法将它们复制到线程本地存储)字典(从磁盘读取并且从未修改过)。然后他们使用字典作为只读数据处理大量数据:

# single threaded
d1,d2,d3 = read_dictionaries()
while line in stdin:
    stdout.write(compute(line,d1,d2,d3)+line)

我试图通过使用线程来加快速度，然后每个线程都会读取自己的输入并写入自己的输出，但由于字典很大，我希望线程共享存储空间。

IIUC，每次线程从 dict 读取时，它都必须锁定它，这会给应用程序带来性能成本。这种数据锁定是不必要的，因为字典是只读的。

CPython 实际上是单独锁定数据还是只是使用 GIL ？

如果确实存在 per-dict 锁定，是否有办法避免它？

最佳答案

python中的多线程处理是没用的。最好使用多处理模块。因为多线程只能在较少的情况下做出积极的努力。

Python implementation detail: In CPython, due to the Global Interpreter Lock, only one thread can execute Python code at once (even though certain performance-oriented libraries might overcome this limitation). If you want your application to make better use of the computational resources of multi-core machines, you are advised to use multiprocessing. However, threading is still an appropriate model if you want to run multiple I/O-bound tasks simultaneously. Official documentation.

没有您身边的任何代码示例，我只能建议将您的大词典分成几个部分，并使用 Pool.map 处理每个部分。 .并在主进程中合并结果。

不幸的是，不可能有效地在不同的 python 进程之间共享大量内存(我们不是在谈论基于 mmap 的共享内存模式)。但是您可以在不同的过程中阅读字典的不同部分。或者只是在主进程中读取整个字典并给子进程一小部分。

另外，我应该警告你，你应该非常小心地使用多处理算法。因为每增加一兆字节，进程数就会成倍增加。

因此，根据您的伪代码示例，我可以基于compute 函数假设两种可能的算法:

# "Stateless"
for line in stdin:
    res = compute_1(line) + compute_2(line) + compute_3(line)
    print res, line

# "Shared" state
for line in stdin:
    res = compute_1(line)
    res = compute_2(line, res)
    res = compute_3(line, res)
    print res, line

在第一种情况下，您可以创建多个 worker，根据 Process class 在单独的 worker 中读取每个字典。 (减少每个进程的内存使用量是个好主意)，并像生产线一样计算它。

在第二种情况下，您有一个共享状态。对于下一个 worker ，您需要上一个 worker 的结果。这是多线程/多处理编程的最坏情况。但是您可以在那里编写算法，几个工作人员正在使用相同的队列并将结果推送到它而无需等待所有周期完成。而你只是分享一个Queue进程之间的实例。

关于python - 在 Python 中的线程之间共享字典时是否可以避免锁定开销？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32657840/

26

4

0

文章推荐： python-click:添加修改其他参数行为的选项

文章推荐： c - 带指针的 getcwd() 返回 "null"

文章推荐： c - 分配一个连续的内存块

Java同步/锁定
我对 Java 并发性比较陌生(还没有阅读 JCIP，但它在我的列表中!)并且我有一个关于锁定行为的问题。具体来说，Java 是锁定对象的引用，还是锁定对象本身？代码示例(不是 sscce，因为我不
svn - 锁定 TortoiseSVN
我的团队使用 TortoiseSVN 编写版本控制代码。有时，有人使用“获取锁定”选项。是否有可能看到解决方案中的锁？最佳答案 http://tortoisesvn.net/docs/nightly
SVN提交/锁定/清理问题
我在使用 SVN 时遇到了一个小问题。当我跑 svn stat我明白了: ~ some/dir 当我跑 svn commit -m "test"我明白了:svn: working copy
security - 锁定 Jenkins
我启用了 jenkins 安全性，认为它会提示我创建一个帐户。我尝试在 c:/program files/jenkins 中删除和编辑我的 config.xml 文件，但我不确定如何在没有访问权限的情
使用 S3 锁定
实现与 S3 结合使用的简单锁定机制的推荐方法是什么？我想做的例子: 通过对象 ID 获取锁从 S3 读取对象修改数据将对象写入 S3 释放锁理想情况下寻找基于云的锁定机制。我可以在本地使用
Oracle索引-全表扫描/锁定
找到这个here : 一般来说，在以下任何情况下，请考虑在列上创建索引: 索引列上存在引用完整性约束，或者列。索引是避免全表锁的一种方法，否则，如果您更新父表主键，则需要，合并到父表中，或从父表中删除
Java-跨多个文件的同步/锁定
在我的程序中，我将把每个“ block ”数据存储在一个单独的文件中。多个线程都会读取和写入各种文件，我想避免因未正确同步而可能出现的问题。本质上，我想要一个设置，其中每个文件的行为就好像它有自己的
windows - 使用WINAPI找出特殊文件上的进程事件句柄(锁定)
我想使用此script作为资源，通过使用Windows API(重置管理器)与Go for Windows中的内容相同到目前为止，我的代码是 Rstrtmgr := syscall.NewLazyD
Java 锁定 <这有什么问题？>
这里的问题是:“这些选择中的哪一个对于线程安全选择的剧院具有最佳性能？” public static List lockList = initializeLocks(); public boolean
javascript - 锁定/防止关闭菜单reactjs
我有一个侧面菜单，单击图标时打开，单击页面或单击菜单上的项目时关闭。我正在尝试实现锁定，因此当单击锁定图标时，即使您单击菜单项或页面，菜单也不会关闭。我能够将图标从锁定图标更改为解锁图标，但我在停止
c - TTF_RenderText 锁定
使用 TRueType 字体编写 SDL 程序。我调用 TTF_Init() 来初始化 TTF 并使用 TTF_OpenFont( name, size ) 打开我的字体。我有一个例程，可以使用以下
Cortex-M4 锁定
我正在尝试调试基于运行 FreeRTOS 的 STM32F3 uC 的应用程序。我已在应用程序的线程上下文中的随机位置手动将 PSP 设置为无效值(例如 0)，希望触发 memManageFault/
c# - 锁定/并发问题
我有以下 C# 代码: 1. List bandEdgeList; 2. 3. bandEdgeList = CicApplication.BandEdgeCache.Where(r
Swift - 锁定/点击按钮
我正在用骰子制作游戏。这个想法是持有/锁定骰子。我把骰子做成按钮，这样现在就可以点击它们了。示例:我抛出一个“6”和一个“1”。我点击“6”，所以现在只会抛出“1”。我对这个有点迷失了，我需要创建
swift - 写入非常大的文件时应用程序卡住/锁定
我正在使用以下代码下载约 200mb 的播客并将其写入文档目录: var podcastRequest = NSURLRequest(URL: audioUrl) NSURLConnection.se
java - 对同步函数的外部调用保持/锁定
下面的类 DoStuff 启动一个线程并同步以保护监听器对象在 null 时不被访问。现在，当从外部访问 DoStuff 类函数 setOnProgressListener() 时，我遇到了问题，因
jquery - 防止浏览器调整大小(锁定)
我正在编写一个使用巨大背景 Canvas 的网站。我试图锁定浏览器调整大小处理程序以避免滚动问题(背景越界等) 这是我第一次做一个完整的后台网站。任何有关优化的建议(png 大小 580.72 KB
c# - 防止多次调用事件方法(锁定)
我是 C# 和线程的新手，我有这个问题要解决: 我有一个处理一些数据的线程，它会不时(必要时)触发我在启动线程之前设置的事件方法 (DataProcessor)。该线程位于专有 dll 中。所以我不能
android - 锁定/解锁设备时的相机示例错误
我正在使用相机，我使用的是文档中给出的完全相同的示例: http://developer.android.com/resources/samples/ApiDemos/src/com/example/
多个服务器上的 Java 锁定
我有几个座位可供用户预订。同一时间，只有一个用户可以参与预订过程，这样同一个座位就不会被多个用户预订。在我的 Java 代码中，我使用了“synchronized”关键字来完成它。这行得通。但是，现

首页

博学

6Ren·AI

商城

python - 在 Python 中的线程之间共享字典时是否可以避免锁定开销？