- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我有一个 60GB 的 SciPy 数组(矩阵),我必须在 5+ 个 multiprocessing
Process
对象之间共享。我看过 numpy-sharedmem 并阅读了 this discussion在 SciPy 列表中。似乎有两种方法 - numpy-sharedmem
并使用 multiprocessing.RawArray()
并将 NumPy dtype
s 映射到 ctype
s。现在,numpy-sharedmem
似乎是要走的路,但我还没有看到一个好的引用示例。我不需要任何类型的锁,因为数组(实际上是矩阵)将是只读的。现在,由于它的大小,我想避免复制。 听起来正确的方法是将数组的 only 副本创建为 sharedmem
数组,然后将其传递给 处理
对象?几个具体问题:
将 sharedmem 句柄实际传递给 sub-Process()
es 的最佳方式是什么?我需要一个队列来传递一个数组吗?管道会更好吗?我可以将它作为参数传递给 Process()
子类的 init(我假设它是腌制的)吗?
在我上面链接的讨论中,提到 numpy-sharedmem
不是 64 位安全的?我肯定使用了一些不可 32 位寻址的结构。
RawArray()
方法是否存在权衡?更慢、更麻烦?
numpy-sharedmem 方法是否需要任何 ctype-to-dtype 映射?
有没有人有这样的开源代码示例?我是一个动手能力很强的人,如果没有任何好的例子可以看,很难做到这一点。
如果我可以提供任何其他信息来帮助其他人澄清这一点,请发表评论,我会添加。谢谢!
这需要在 Ubuntu Linux 和也许 Mac OS 上运行,但可移植性并不是一个大问题。
最佳答案
如果您使用的是 Linux(或任何符合 POSIX 的系统),则可以将此数组定义为全局变量。 multiprocessing
在 Linux 上启动新子进程时使用 fork()
。一个新生成的子进程会自动与其父进程共享内存,只要它不改变它(copy-on-write 机制)。
既然你说“我不需要任何类型的锁,因为数组(实际上是一个矩阵)将是只读的”,利用这种行为将是一种非常简单但非常有效的方法:所有 child 当读取这个大型 numpy 数组时,进程将访问物理内存中的相同数据。
不要将您的数组交给 Process()
构造函数,这将指示 multiprocessing
将数据 pickle
给子进程,这在您的情况下,这将是非常低效或不可能的。在 Linux 上,在 fork()
之后,子节点是使用相同物理内存的父节点的精确副本,因此您需要做的就是确保“包含”矩阵的 Python 变量是可访问的从您移交给 Process()
的 target
函数中。这通常可以通过“全局”变量来实现。
示例代码:
from multiprocessing import Process
from numpy import random
global_array = random.random(10**4)
def child():
print sum(global_array)
def main():
processes = [Process(target=child) for _ in xrange(10)]
for p in processes:
p.start()
for p in processes:
p.join()
if __name__ == "__main__":
main()
在不支持 fork()
的 Windows 上 - multiprocessing
正在使用 win32 API 调用 CreateProcess
。它从任何给定的可执行文件创建一个全新的进程。这就是为什么在 Windows 上,如果需要在父进程运行时创建的数据,需要将数据腌制给子进程。
关于python - 在多处理进程之间共享大型只读 Numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17785275/
我在不同的硬件上测试 Cassandra 已经有一段时间了。 首先我有 2 个 CPU 和 6 GB RAM 然后我更改为 16 个 CPU 和 16 GB RAM(其中只有 6 GB 可供我的测试使
我只是想从二进制文件中读/写。我一直在关注 this教程,它的工作原理......除了它似乎正在将内容写入 txt 文件。我在测试的时候把文件命名为test.bin,但是记事本可以打开并正常显示,所以
我编写了一些简单的 Java 代码来从文本文件中读取字符串,将它们组合起来,然后将它们写回。 (有关输出没有变化的简化版本,请参见下面的片段) 问题是输入文件和输出文件中的特定字符(- 和 ...)是
我真的很感兴趣——你为什么要放 readln; 从键盘读取一些值到变量后的行?例如, repeat writeln('Make your choise'); read(CH); if (CH = '1
只要程序不允许同时写入存储在模块中的共享数据结构的相同元素,它是线程安全的吗?我知道这是一个菜鸟问题,但在任何地方都找不到明确解决的问题。情况如下: 在程序开始时,数据被初始化并存储在模块级可分配数组
我有一个数据结构,其操作可以归类为读取操作(例如查找)和写入操作(例如插入、删除)。这些操作应该同步,以便: 读操作不能在写操作执行时执行(除非在同一线程上),但是读操作可以与其他读操作并发执行。 在
我在Java套接字编程中有几个问题。 在读取客户端套接字中的输入流时,如果抛出IO异常;那么我们是否需要重新连接服务器套接字/再次初始化客户端套接字? 如果我们关闭输出流,它将关闭客户端套接字吗? 如
我正在尝试从客户端将结构写入带有套接字的服务器。 结构是: typedef struct R { int a; int b; double c; double d; double result[4];
我想知道是否可以通过 Javascript 从/向 Azure Active Directory 广告读取/写入数据。我读到 Azure 上有 REST 服务,但主要问题是生成与之通信的 token
我希望有人能提供完整的工作代码,允许在 Haskell 中执行以下操作: Read a very large sequence (more than 1 billion elements) of 32
我有一个任务是制作考试模拟器。我的意思是,在老师输入某些科目的分数后,学生输入他的名字、姓氏和出生,然后他决定学生是否通过科目。所以,我有一个问题,如何用新行写入文件文本并通过重写该文件来读取(逐行读
我需要编写巨大的文件(超过 100 万行)并将文件发送到另一台机器,我需要使用 Java BufferedReader 一次读取一行。 我使用的是 indetned Json 格式,但结果不太方便,
我在 Android 应用程序中有一个读写操作。在 onCreate 上,将读取文件并将其显示为编辑文本并且可以进行编辑。当按下保存按钮时,数据将被写入 onCreate 上读取的同一文件中。但我得到
我正在编写一个程序,该程序从一个文件读取输入,然后该程序将格式化数据并将其写入另一个文件。 输入文件: Christopher kardaras,10 N Brainard,Naperville,IL
我有一个 SCALA(+ JAVA) 代码,它以一定的速率读写。分析可以告诉我代码中每个方法的执行时间。如何衡量我的程序是否达到了最大效率?为了使我的代码优化,以便它以给定配置可能的最大速度读取。我知
嗨,我想知道如何访问 java/maven 中项目文件夹中的文件,我考虑过使用 src/main/resources,但有人告诉我,写入此目录中的文件是一个坏主意,并且应该只在项目的配置中使用,所以我
我想读\写一个具有以下结构的二进制文件: 该文件由“RECORDS”组成。每个“RECORD”具有以下结构:我将以第一条记录为例 (红色)起始字节:0x5A(始终为 1 字节,固定值 0x5A) (绿
我想制作一个C程序,它将用一些参数来调用;每个参数将代表一个文件名,我想在每个参数中写一些东西。 FILE * h0; h0 = fopen(argv[0],"w"); char buff
我有一个包含团队详细信息的文件。我需要代码来读取文件,并将获胜百分比写入第二个文件。我还需要使用指示的搜索功能来搜索团队的具体信息。该代码未写入百分比文件。当菜单显示时,第一个文件的内容被打印,但代码
我正在使用 read() 和 write() 函数来处理我的类,并且我正在尝试使用一个函数来写入它所读取的内容以及我作为参数给出的前面的内容。 例如,我想给出 10 作为我的程序的参数 int mai
我是一名优秀的程序员,十分优秀!