python - 使我的 NumPy 数组跨进程共享-6ren

python - 使我的 NumPy 数组跨进程共享

转载作者：太空狗更新时间：2023-10-29 18:05:30

25

4

我已经阅读了很多关于共享数组的问题，它对于简单数组来说似乎足够简单，但我一直在尝试让它为我拥有的数组工作。

import numpy as np
data=np.zeros(250,dtype='float32, (250000,2)float32')

我尝试通过以某种方式使 mp.Array 接受 data 来将其转换为共享数组，我还尝试使用 ctypes 创建数组:

import multiprocessing as mp
data=mp.Array('c_float, (250000)c_float',250)

我设法让我的代码工作的唯一方法不是将数据传递给函数，而是传递一个编码字符串以进行解压缩/解码，然而这最终会导致调用 n(字符串数)个进程，这似乎是多余的.我想要的实现是基于将二进制字符串列表切成 x(进程数)并将这个 block 、data 和 index 传递给工作的进程，除了 data 是在本地修改的，因此关于如何使其共享 的问题，任何使用自定义(嵌套)numpy 数组的示例都已经是帮助很大。

PS:这个问题是Python multi-processing的后续问题

最佳答案

请注意，您可以从复杂数据类型的数组开始:

In [4]: data = np.zeros(250,dtype='float32, (250000,2)float32')

并将其视为同质数据类型的数组:

In [5]: data2 = data.view('float32')

然后，将其转换回复杂数据类型:

In [7]: data3 = data2.view('float32, (250000,2)float32')

改变数据类型是一个非常快速的操作；它不会影响底层数据，只会影响 NumPy 解释它的方式。所以改变 dtype 实际上是没有成本的。

因此，您可以使用上面的技巧轻松地将您所读到的具有简单(同类)数据类型的数组应用于您的复杂数据类型。

下面的代码借鉴了J.F. Sebastian's answer, here 中的许多想法。 .

import numpy as np
import multiprocessing as mp
import contextlib
import ctypes
import struct
import base64


def decode(arg):
    chunk, counter = arg
    print len(chunk), counter
    for x in chunk:
        peak_counter = 0
        data_buff = base64.b64decode(x)
        buff_size = len(data_buff) / 4
        unpack_format = ">%dL" % buff_size
        index = 0
        for y in struct.unpack(unpack_format, data_buff):
            buff1 = struct.pack("I", y)
            buff2 = struct.unpack("f", buff1)[0]
            with shared_arr.get_lock():
                data = tonumpyarray(shared_arr).view(
                    [('f0', '<f4'), ('f1', '<f4', (250000, 2))])
                if (index % 2 == 0):
                    data[counter][1][peak_counter][0] = float(buff2)
                else:
                    data[counter][1][peak_counter][1] = float(buff2)
                    peak_counter += 1
            index += 1
        counter += 1


def pool_init(shared_arr_):
    global shared_arr
    shared_arr = shared_arr_  # must be inherited, not passed as an argument


def tonumpyarray(mp_arr):
    return np.frombuffer(mp_arr.get_obj())


def numpy_array(shared_arr, peaks):
    """Fills the NumPy array 'data' with m/z-intensity values acquired
    from b64 decoding and unpacking the binary string read from the
    mzXML file, which is stored in the list 'peaks'.

    The m/z values are assumed to be ordered without validating this
    assumption.

    Note: This function uses multi-processing
    """
    processors = mp.cpu_count()
    with contextlib.closing(mp.Pool(processes=processors,
                                    initializer=pool_init,
                                    initargs=(shared_arr, ))) as pool:
        chunk_size = int(len(peaks) / processors)
        map_parameters = []
        for i in range(processors):
            counter = i * chunk_size
            # WARNING: I removed -1 from (i + 1)*chunk_size, since the right
            # index is non-inclusive. 
            chunk = peaks[i*chunk_size : (i + 1)*chunk_size]
            map_parameters.append((chunk, counter))
        pool.map(decode, map_parameters)

if __name__ == '__main__':
    shared_arr = mp.Array(ctypes.c_float, (250000 * 2 * 250) + 250)
    peaks = ...
    numpy_array(shared_arr, peaks)

如果能保证执行赋值的各个进程

if (index % 2 == 0):
    data[counter][1][peak_counter][0] = float(buff2)
else:
    data[counter][1][peak_counter][1] = float(buff2)

永远不要争相修改同一个位置的数据，那我相信你真的可以放弃使用锁

with shared_arr.get_lock():

但我对你的代码理解得不够好，无法确定，所以为了安全起见，我包含了锁。

关于python - 使我的 NumPy 数组跨进程共享，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15976937/

25

4

0

文章推荐： Python file.tell() 给出奇怪的数字？

文章推荐： python - Python 中的同时赋值语义

文章推荐： python - 不解 "' tuple'对象不支持项赋值”错误

c# - 是否可以使用 .Net 框架以编程方式记录对 Windows 共享(SMB 共享)的访问？
只是想知道是否有可能找出谁从 Windows 共享中读取了文件(最好使用 .NET，但 win32 native 可以)？我想做的是创建类似 awstats 的东西对于 Windows 共享，这样我
Android - 共享
是否可以列出 Intent.ACTION_SEND ？我的意思是我需要知道是否有人通过 action_send 在 Facebook 上分享或在 Twitter 上发推文。最佳答案也许你想要一个更
java - 谷歌日历(共享)
我正在使用 Google Apps 应用程序。实际上，我想在不使用密码的情况下访问另一个 ID。我使用了 OAuth，它运行良好。但我无法分享特定人的日历。我尝试了以下代码。 GoogleOAuthP
iphone - 共享 MACintosh？
我怎样才能只创建模拟器...可能吗？我知道，设备需要分发证书。最佳答案您只需将应用程序目录从 iPhone 模拟器复制到另一个实例/操作系统版本，它就应该可以工作。因此，如果您想分发 3.1.3
maven - Docker多阶段构建和上一阶段的安装/共享
我想使用多阶段构建来避免每次构建应用程序时都下载我的 Java 项目所需的所有 Maven 依赖项。我正在考虑在第一阶段解决 Maven 依赖项，然后在第二阶段构建应用程序，这将需要访问在前一阶段下
ios - 如何保护本地资源免遭未经授权的传输(共享)
我正在寻找保护用户下载内容的初步想法。用户下载充满有趣资源的 zip 文件，这些资源被提取到本地文件系统中以供应用程序使用。我的目标是防止用户通过互联网将下载的资源共享给其他用户(假设他们获得了对文件
桌面和移动网站应用程序之间的 session 共享？
我想知道在具有移动和桌面版本的网站上共享身份验证、 session 管理等的最佳方法是什么。我们正在运行 Tomcat，并且更愿意将移动站点和桌面站点的应用程序保持在不同的节点上。我看过类似的帖子，
c++ - (共享)指向单例的指针
我发现了这个单例的实现。我怎样才能创建指向它的指针或共享指针？` 为什么这不起作用？自动测试 = Singleton::Instance(); class Singleton { public: st
virtualenv - 共享 Virtualenv 环境定义
我有一个 heroku 项目，我想与其他人分享。作为the instructions describe ，我使用 virtualenv 来管理环境和依赖项。有没有办法在新机器上从 requiremen
maven - 共享 Maven 本地仓库
Maven 将所有 jar 存储在本地存储库 ~/.m2/repository/ 下。用户多时占用空间大。那么，是否可以由多个用户共享这个本地存储库，或许在不同的目录结构下？最佳答案简单的回答
javascript - 共享 worker 在重新加载页面时终止
为什么共享 worker 在重新加载页面时死了？应该是复活了我该如何解决这个问题？重装前重新加载后(在example.com上按F5) parent worker var port = new S
多个应用程序中的 Angular 共享 Assets
我正在开发多个小型应用程序，这些应用程序将共享通用和共享模块和 Assets 。关于如何创建项目结构的部分在这里回答:https://stackoverflow.com/a/61254557/135
jenkins - 如何从另一台计算机访问/共享 Jenkins？
我在 RHEL 上安装了 jenkins (localhost:8080)，我能够成功地构建代码现在，我想设置主/从代理。我的笔记本电脑将充当“Master Jenkins”，而我同事的笔记本电脑
Android 共享 Intent EXTRA_STREAM
我有这种方法可以根据我使用的 EXTRA_STREAM 共享文本文件或图片。我有这两个我可以选择 i.putExtra(Intent.EXTRA_STREAM, uri); i.putExtra(In
r - 共享 Bookdown 书而不公开
我正在使用 R 中的一个数据分析项目，我正在使用 R 中的敏感私有(private)数据进行一些逻辑和多级建模。我爱上了。预订包，我已经创建了一本关于我们的工作流程和分析管道的相当广泛的书。问题是
iPhone 工具栏由多个 View 共享
我正在构建的应用程序需要在 UITabBarController 框架内为多个 View (及其 subview )显示共享的自定义 UIToolbar。自定义工具栏的内容在所有 View 中都是相同
javascript - 共享 eslint 配置找不到节点模块
我有多个应用程序，我想共享相同的 eslint 配置: - project_root/ - app1/ - node_modules/ - eslint.rc
electron - 共享 Electron 主过程
我有多个 Electron 应用程序。一个是主应用程序，其他几个功能应用程序。主应用程序上的按钮很少，这将导致功能应用程序打开。这里的问题是每个应用程序都有一个主进程，该进程导致要利用更多的CPU。是
javascript - 共享 SockJS 连接
我正在开发一个 Node.js 后端，它通过 websocket 与一些桌面客户端进行通信，而服务器端的通信是从 Web 前端发起的。一切正常，因为我将 SockJS Connection 实例存储在
ssh - 共享 SSH key
我对托管多个网站的服务器上的多个用户帐户使用私有(private) SSH key 和无密码条目。我为每个用户帐户使用相同的私钥。 (因为我很懒？或者那是“正确”的方式)。我现在想授权该国不同地区

首页

博学

6Ren·AI

商城

python - 使我的 NumPy 数组跨进程共享