- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
SO 上有一堆问题看起来是一样的,但它们并没有真正完全回答我的问题。我认为这对于计算科学家来说是一个非常常见的用例,所以我提出了一个新问题。
问题:
我从文件(每个大约 10 MB)中读取了几个小的 numpy 数组,并对它们进行了一些处理。我想创建一个更大的数组(~1 TB),其中数组中的每个维度都包含来自这些较小文件之一的数据。任何试图在 RAM 中创建整个较大数组(或其中的大部分)的方法都是不合适的,因为它会淹没 RAM 并导致机器停止运行。所以我需要能够初始化较大的数组并以小批量填充它,以便每个批量都写入磁盘上的较大数组。
我最初认为 numpy.memmap 是要走的路,但是当我发出像
这样的命令时mmapData = np.memmap(mmapFile,mode='w+', shape=(large_no1,large_no2))
RAM 溢出,机器减速停止。
在四处寻找之后,PyTables 似乎很适合这类事情,但我不太确定。此外,很难在文档或其他地方找到一个简单的例子来说明这个常见的用例。
如果有人知道如何使用 PyTables 完成此操作,或者如果有更有效/更快的方法来执行此操作,请告诉我!任何引用。示例表示赞赏!
最佳答案
这很奇怪。 np.memmap 应该可以工作。我一直在 12Gb RAM 机器上使用它处理 250Gb 数据,没有出现任何问题。
系统真的在创建 memmap 文件的那一刻耗尽了内存吗?或者它发生在代码中?如果它发生在文件创建时,我真的不知道会出现什么问题。
当我开始使用 memmap 时,我犯了一些导致内存耗尽的错误。对我来说,类似下面的代码应该可以工作:
mmapData = np.memmap(mmapFile, mode='w+', shape = (smallarray_size,number_of_arrays), dtype ='float64')
for k in range(number_of_arrays):
smallarray = np.fromfile(list_of_files[k]) # list_of_file is the list with the files name
smallarray = do_something_with_array(smallarray)
mmapData[:,k] = smallarray
这可能不是最有效的方法,但在我看来它的内存使用率最低。
注意:memmap(int) 和 fromfile(float) 的默认 dtype 值是不同的!
关于python - 在小块中创建非常大的 NUMPY 数组(PyTables 与 numpy.memmap),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26214696/
我制作了一个简单的 NodeJS TCP 服务器,Java 客户端发送图像: encodedImage = out.write("IMG;" + encodedImage); out.flush()
我最近(比如 2 天)开始使用带有 XML 的 XSLT 文档。我了解基础知识,并且能够使用引用单独 .XSLT 文档的 .XML 文档生成格式化文档。 我的问题与主题一样,是“是否可以创建一个包含
我是一名优秀的程序员,十分优秀!