gpt4 book ai didi

python - 具有非常大数组的 numpy tofile() 保存所有零

转载 作者:太空宇宙 更新时间:2023-11-03 11:54:03 24 4
gpt4 key购买 nike

当我尝试保存一个非常大的(20000 x 20000 元素)数组时,我得到了所有的零:

In [2]: shape = (2e4,)*2

In [3]: r = np.random.randint(0, 10, shape)

In [4]: r.tofile('r.data')

In [5]: ls -lh r.data
-rw-r--r-- 1 whg staff 3.0G 23 Jul 16:18 r.data

In [6]: r[:6,:6]
Out[6]:
array([[6, 9, 8, 7, 4, 4],
[5, 9, 5, 0, 9, 4],
[6, 0, 9, 5, 7, 6],
[4, 0, 8, 8, 4, 7],
[8, 3, 3, 8, 7, 9],
[5, 6, 1, 3, 1, 4]])

In [7]: r = np.fromfile('r.data', dtype=np.int64)

In [8]: r = r.reshape(shape)

In [9]: r[:6,:6]
Out[9]:
array([[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0]])

np.save() 做了类似的奇怪事情。

在网上搜索后,我发现在 OSX 中有一个已知的错误:

https://github.com/numpy/numpy/issues/2806

当我尝试使用 Python 的 read() 从文件中读取 tostring() 数据时,出现内存错误。

有更好的方法吗?谁能推荐一个实用的解决方法来解决这个问题?

最佳答案

使用mmap 对文件进行内存映射,并使用np.frombuffer 创建指向缓冲区的数组。在 x86_64 Linux 上测试:

# `r.data` created as in the question
>>> import mmap
>>> with open('r.data') as f:
... m = mmap.mmap(f.fileno(), 0, mmap.MAP_SHARED, mmap.PROT_READ)
...
>>> r = np.frombuffer(m, dtype='int64')
>>> r = r.reshape(shape)
>>> r[:6, :6]
array([[7, 5, 9, 5, 3, 5],
[2, 7, 2, 6, 7, 0],
[9, 4, 8, 2, 5, 0],
[7, 2, 4, 6, 6, 7],
[2, 9, 2, 2, 2, 6],
[5, 2, 2, 6, 1, 5]])

请注意,这里的 r 是内存映射数据的 View ,这使得它的内存效率更高,但会带来自动获取文件内容更改的副作用。如果您希望它指向数据的私有(private)副本,就像 np.fromfile 返回的数组一样,添加一个 r = np.copy(r)

(此外,如所写,这不会在 Windows 下运行,这需要略有不同的 mmap 标志。)

关于python - 具有非常大数组的 numpy tofile() 保存所有零,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17815224/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com