python - 为什么通过共享内存的通信比通过队列慢得多？-6ren

python - 为什么通过共享内存的通信比通过队列慢得多？

转载作者：太空狗更新时间：2023-10-29 19:37:29

我在最近的老式 Apple MacBook Pro 上使用 Python 2.7.5，它有四个硬件和八个逻辑 CPU；即，sysctl 实用程序提供:

$ sysctl hw.physicalcpu
hw.physicalcpu: 4
$ sysctl hw.logicalcpu
hw.logicalcpu: 8

我需要对大型一维列表或数组执行一些相当复杂的处理，然后将结果保存为中间输出，稍后将在我的应用程序的后续计算中再次使用。我的问题的结构很自然地适合并行化，所以我想我会尝试使用 Python 的多处理模块将一维数组分割为几个部分(4 部分或 8 部分，我还不确定是哪个)，执行并行计算，然后将结果输出重新组合成最终格式。我正在尝试决定是使用 multiprocessing.Queue()(消息队列)还是使用 multiprocessing.Array()(共享内存)作为我传达计算结果的首选机制从子进程回到主父进程，我一直在试验几个“玩具”模型，以确保我了解多处理模块的实际工作方式。然而，我遇到了一个相当出乎意料的结果:在为同一问题创建两个基本等效的解决方案时，使用共享内存进行进程间通信的版本似乎比使用消息的版本需要更多的执行时间(比如多 30 倍!)队列。下面，我为“玩具”问题提供了两个不同版本的示例源代码，该问题使用并行进程生成一长串随机数，并以两种不同的方式将聚合结果传回父进程:首先使用消息队列, 第二次使用共享内存。

这是使用消息队列的版本:

import random
import multiprocessing
import datetime

def genRandom(count, id, q):

    print("Now starting process {0}".format(id))
    output = []
    # Generate a list of random numbers, of length "count"
    for i in xrange(count):
        output.append(random.random())
    # Write the output to a queue, to be read by the calling process 
    q.put(output)

if __name__ == "__main__":
    # Number of random numbers to be generated by each process
    size = 1000000
    # Number of processes to create -- the total size of all of the random
    # numbers generated will ultimately be (procs * size)
    procs = 4

    # Create a list of jobs and queues 
    jobs = []
    outqs = []
    for i in xrange(0, procs):
        q = multiprocessing.Queue()
        p = multiprocessing.Process(target=genRandom, args=(size, i, q))
        jobs.append(p)
        outqs.append(q)

    # Start time of the parallel processing and communications section
    tstart = datetime.datetime.now()    
    # Start the processes (i.e. calculate the random number lists)      
    for j in jobs:
        j.start()

    # Read out the data from the queues
    data = []
    for q in outqs:
        data.extend(q.get())

    # Ensure all of the processes have finished
    for j in jobs:
        j.join()
    # End time of the parallel processing and communications section
    tstop = datetime.datetime.now()
    tdelta = datetime.timedelta.total_seconds(tstop - tstart)

    msg = "{0} random numbers generated in {1} seconds"
    print(msg.format(len(data), tdelta))

当我运行它时，我得到的结果通常如下所示:

$ python multiproc_queue.py
Now starting process 0
Now starting process 1
Now starting process 2
Now starting process 3
4000000 random numbers generated in 0.514805 seconds

现在，这里是等效的代码段，但稍作重构，以便它使用共享内存而不是队列:

import random
import multiprocessing
import datetime

def genRandom(count, id, d):

    print("Now starting process {0}".format(id))
    # Generate a list of random numbers, of length "count", and write them
    # directly to a segment of an array in shared memory
    for i in xrange(count*id, count*(id+1)):
        d[i] = random.random()

if __name__ == "__main__":
    # Number of random numbers to be generated by each process
    size = 1000000
    # Number of processes to create -- the total size of all of the random
    # numbers generated will ultimately be (procs * size)
    procs = 4

    # Create a list of jobs and a block of shared memory
    jobs = []
    data = multiprocessing.Array('d', size*procs)
    for i in xrange(0, procs):
        p = multiprocessing.Process(target=genRandom, args=(size, i, data))
        jobs.append(p)

    # Start time of the parallel processing and communications section
    tstart = datetime.datetime.now()    
    # Start the processes (i.e. calculate the random number lists)      
    for j in jobs:
        j.start()

    # Ensure all of the processes have finished
    for j in jobs:
    j.join()
    # End time of the parallel processing and communications section
    tstop = datetime.datetime.now()
    tdelta = datetime.timedelta.total_seconds(tstop - tstart)

    msg = "{0} random numbers generated in {1} seconds"
    print(msg.format(len(data), tdelta))

然而，当我运行共享内存版本时，典型的结果看起来更像这样:

$ python multiproc_shmem.py 
Now starting process 0
Now starting process 1
Now starting process 2
Now starting process 3
4000000 random numbers generated in 15.839607 seconds

我的问题:为什么我的两个版本的代码在执行速度上存在如此巨大的差异(大约 0.5 秒对 15 秒，相差 30 倍!)？特别是，如何修改共享内存版本以使其运行得更快？

最佳答案

这是因为multiprocessing.Array默认使用锁来防止多个进程同时访问它:

multiprocessing.Array(typecode_or_type, size_or_initializer, *, lock=True)

...

If lock is True (the default) then a new lock object is created to synchronize access to the value. If lock is a Lock or RLock object then that will be used synchronize access to the value. If lock is False then access to the returned object will not be automatically protected by a lock, so it will not necessarily be “process-safe”.

这意味着您并不是真正地同时写入数组——一次只有一个进程可以访问它。由于您的示例工作人员除了数组写入外几乎什么都不做，因此不断等待此锁会严重损害性能。如果在创建数组时使用 lock=False，性能会好很多:

lock=True:

Now starting process 0
Now starting process 1
Now starting process 2
Now starting process 3
4000000 random numbers generated in 4.811205 seconds

lock=False:

Now starting process 0
Now starting process 3
Now starting process 1
Now starting process 2
4000000 random numbers generated in 0.192473 seconds

请注意，使用 lock=False 意味着您需要在执行进程不安全的操作时手动保护对 Array 的访问。你的例子是让进程写入独特的部分，所以没关系。但是，如果您在执行此操作时尝试从中读取数据，或者让不同的进程写入重叠部分，则需要手动获取锁。

关于python - 为什么通过共享内存的通信比通过队列慢得多？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25271723/

文章推荐： c++ - [](int* p){delete p;} 是什么意思？

文章推荐： c++ - 将 [][] 放入 **

文章推荐： Python OpenCV Ellipse - 最多接受 5 个参数(给定 8 个)

R中的读写管道()通信
大多数语言都支持双向进程通信。例如，在 Python 中，我可以(草率地)执行以下操作: >>> from subprocess import * >>> p = Popen('nslookup',
与arduino的C++通信
致力于使用 C++ 在 arduino 和 PC (Win 7) 之间进行通信。使用 WriteFile 和 ReadFile 创建通信或简单地发送或接收数据没有问题。但是当我想以某种方式“协调”沟通
微服务之间的 Kubernetes 通信
我们正在开发一个基于微服务的应用程序。它们将使用 Helm Package Manager 部署到 kubernetes，并且它们都存储了自己的存储库和 helm chart。以下是我们微服务的名称。
wpf - MVVM:通信
我正在开发一个大型 MVVM 应用程序。我为此使用了 MVVM 轻量级工具包。该应用程序就像一个带有后退和前进按钮的网络浏览器。主视图是一个用户控件。我在主视图用户控件中放置了后退和前进按钮。主视图又
Java - freepascal 通信
我在 java 和 freepascal(lazarus) 应用程序之间的通信有问题。我使用套接字。它们正确连接。一切都很顺利，直到我想从一个应用程序向另一个应用程序发送一些东西。在java而不是“a
c# - 客户端服务器套接字C#通信
我已经使用客户端套接字和服务器套接字使用C#编写了群聊。当我使用VS 2017在自己的PC中运行程序(服务器和客户端)时，客户端和服务器之间的通信工作正常。当我在笔记本电脑中运行客户端程序，并在自
kubernetes - Pod 通信
Kubernetes 中两个不同 Pod 之间的通信是如何发生的？就我而言，我有两个 Pod:前端和后端，它们都有不同的容器。我希望我的前端 pod 与后端 pod 通信，但我不想使用后端 pod
闪存到 C# 通信
我正在尝试在浏览器中嵌入的 flash 实例与在 C# WinForms 应用程序中运行的 flash 实例之间进行通信...我收到一个编译错误，内容为: 1119 Access of possibl
Android - Rails 通信
鉴于网络上缺乏信息，请问一个问题:我要在 Android 中创建一个应用程序，使用一个数据库应用程序 rails 。为此，我需要一个手动 session 。所以如果有人准备好了示例/教程显示通信 an
C# PHP 通信
我正在编写一个应用程序，它将通过 MySQL 数据库对用户进行身份验证。我已经用 Java (android) 编写了它，但现在正在移植到 Windows 手机。 PHP 文件使用 $get 然后回显
两个不同设备上的两个应用程序之间的 Android 通信
是否可以通过互联网在两个不同设备上的两个不同应用程序之间建立通信。我想从设备 A 上的应用程序点击一个设备 B 上的应用程序，然后从设备 B 上的应用程序获取数据到设备 A 上的应用程序。如果可能，如
Javascript-iframe 通信
这是脚本: 它被放置在其他网站上。 com 并显示一个 iframe。如果有人点击 iframe 中的某个内容，脚本应该将一个 div 写入 othersite 。 com. 所以我的问题是如何做到
PHP C++ 通信
你好我是 php 的新手，我用 c++ 编写了整个代码并想在 php 中使用这段代码。所以我为我的代码制作了 dll 以使用它。但是我不能在 php 中使用这个 dll，可以谁能给我完整的代码来使用
对象之间的 C++ 通信
我确定之前已经有人问过(并回答过)此类问题，所以如果是这样，请将我链接到之前的讨论... 在 C++ 中，假设我有一个 ClassA 类型的对象，其中包含一个 ClassB 类型的私有(private
无法建立正确的 RS485 通信
我正在尝试使用 ATmega32 进行串行通信。首先，我使用 RS232，使用 USB-to-RS232 建立使用串行终端的接收和传输(在我的例子中是 tera 术语)。无论我从串行终端 Atmega
Ruby SSL 通信
我找不到适用于 Ruby 的 SSL 实现。我的部分项目需要服务器和客户端之间的安全通信链接，我希望为此使用 SSL 以创建安全 session 。谢谢最佳答案如果你使用 Ruby 1.9.x
Java SSL 通信
我正在尝试在客户端/服务器之间进行 SSL 通信。到目前为止，我已经从 keystore 创建了 java.security.cert.X509Certificate。接下来我应该怎么做才能使这次沟
C++ USB 通信
我在与 Windows 上的 USB 设备通信时遇到问题。我不能使用 libusb 或 WinUSB，因为我有一个特定的驱动程序(Silabs USB 到 UART，这是一个 USB 到串口的桥接器
iPhone TCP 通信
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
python - 没有xcom的任务之间的 Airflow 通信
我发现 xcom 实际上是将数据写入数据库并从其他任务中提取数据。我的数据集很大，将其腌制并写入数据库会导致一些不必要的延迟。有没有办法在不使用 xcom 的情况下在同一 Airflow Dag 中的

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 为什么通过共享内存的通信比通过队列慢得多？