gpt4 book ai didi

python - 在小块中创建非常大的 NUMPY 数组(PyTables 与 numpy.memmap)

转载 作者:太空狗 更新时间:2023-10-30 03:01:12 28 4
gpt4 key购买 nike

SO 上有一堆问题看起来是一样的,但它们并没有真正完全回答我的问题。我认为这对于计算科学家来说是一个非常常见的用例,所以我提出了一个新问题。

问题:

我从文件(每个大约 10 MB)中读取了几个小的 numpy 数组,并对它们进行了一些处理。我想创建一个更大的数组(~1 TB),其中数组中的每个维度都包含来自这些较小文件之一的数据。任何试图在 RAM 中创建整个较大数组(或其中的大部分)的方法都是不合适的,因为它会淹没 RAM 并导致机器停止运行。所以我需要能够初始化较大的数组并以小批量填充它,以便每个批量都写入磁盘上的较大数组。

我最初认为 numpy.memmap 是要走的路,但是当我发出像

这样的命令时
mmapData = np.memmap(mmapFile,mode='w+', shape=(large_no1,large_no2))

RAM 溢出,机器减速停止。

在四处寻找之后,PyTables 似乎很适合这类事情,但我不太确定。此外,很难在文档或其他地方找到一个简单的例子来说明这个常见的用例。

如果有人知道如何使用 PyTables 完成此操作,或者如果有更有效/更快的方法来执行此操作,请告诉我!任何引用。示例表示赞赏!

最佳答案

这很奇怪。 np.memmap 应该可以工作。我一直在 12Gb RAM 机器上使用它处理 250Gb 数据,没有出现任何问题。

系统真的在创建 memmap 文件的那一刻耗尽了内存吗?或者它发生在代码中?如果它发生在文件创建时,我真的不知道会出现什么问题。

当我开始使用 memmap 时,我犯了一些导致内存耗尽的错误。对我来说,类似下面的代码应该可以工作:

mmapData = np.memmap(mmapFile, mode='w+', shape = (smallarray_size,number_of_arrays), dtype ='float64')

for k in range(number_of_arrays):
smallarray = np.fromfile(list_of_files[k]) # list_of_file is the list with the files name
smallarray = do_something_with_array(smallarray)
mmapData[:,k] = smallarray

这可能不是最有效的方法,但在我看来它的内存使用率最低。

注意:memmap(int) 和 fromfile(float) 的默认 dtype 值是不同的!

关于python - 在小块中创建非常大的 NUMPY 数组(PyTables 与 numpy.memmap),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26214696/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com