gpt4 book ai didi

python - Numpy - 切片图像时最小内存使用量?

转载 作者:太空宇宙 更新时间:2023-11-04 02:51:09 25 4
gpt4 key购买 nike

我在 python 中遇到内存使用问题,但还没有找到令人满意的解决方案。

问题很简单:我将图像集合作为形状 (n_samples, size_image) 的 numpy 数组。我需要以相同的方式对每个图像进行切片,然后将这些切片一次性全部提供给分类算法。如何获取 numpy 数组切片而不在内存中复制数据?天真地,由于切片是原始数据的简单“ View ”,我假设必须有一种方法可以在不复制内存中数据的情况下进行切片。在处理大型数据集(例如 MNIST 手写数字数据集)时,这个问题很关键。

我尝试使用 numpy.lib.stride_tricks.as_strided 找到解决方案,但很难让它适用于图像集合。

类似的玩具问题是以内存友好的方式分割 scikit 手写数字。

from sklearn.datasets import load_digits
digits = load_digits()
X = digits.data

X 的形状为 (1797, 64) ,即图片是一个 8x8 元素。对于 6x6 的窗口大小,它将给出 (8-6+1)*(8-6+1) = 9 个切片,每个图像大小为 36,从而产生一个 sliced_X 形状的数组 ( 16173, 36)

现在的问题是如何在不使用太多内存的情况下从 Xsliced_X???

最佳答案

我会开始假设输入数组是 (M,n1,n2)(如果不是,我们总是可以 reshape 它)。这是一个具有滑动窗口 View 的实现,其输出数组的形状为 (M,b1,b2,n1-b1+1,n2-b2+1) block 大小为 (b1,b2) -

def strided_lastaxis(a, blocksize):
d0,d1,d2 = a.shape
s0,s1,s2 = a.strides

strided = np.lib.stride_tricks.as_strided

out_shp = (d0,) + tuple(np.array([d1,d2]) - blocksize + 1) + blocksize
return strided(a, out_shp, (s0,s1,s2,s1,s2))

作为一个 View ,它不会再占用内存空间,所以我们在内存方面做得很好。但请记住,我们不应该 reshape ,因为那样会强制进行内存复制。

这是一个通过手动检查来制作东西的示例运行 -

设置输入并获取输出:

In [72]: a = np.random.randint(0,9,(2, 6, 6))

In [73]: out = strided_lastaxis(a, blocksize=(4,4))

In [74]: np.may_share_memory(a, out) # Verify this is a view
Out[74]: True

In [75]: a
Out[75]:
array([[[1, 7, 3, 5, 6, 3],
[3, 2, 3, 0, 1, 5],
[6, 3, 5, 5, 3, 5],
[0, 7, 0, 8, 2, 4],
[0, 3, 7, 3, 4, 4],
[0, 1, 0, 8, 8, 1]],

[[4, 1, 4, 5, 0, 8],
[0, 6, 5, 6, 6, 7],
[6, 3, 1, 8, 6, 0],
[0, 1, 1, 7, 6, 8],
[6, 3, 3, 1, 6, 1],
[0, 0, 2, 4, 8, 3]]])

In [76]: out.shape
Out[76]: (2, 3, 3, 4, 4)

输出值:

In [77]: out[0,0,0]
Out[77]:
array([[1, 7, 3, 5],
[3, 2, 3, 0],
[6, 3, 5, 5],
[0, 7, 0, 8]])

In [78]: out[0,0,1]
Out[78]:
array([[7, 3, 5, 6],
[2, 3, 0, 1],
[3, 5, 5, 3],
[7, 0, 8, 2]])

In [79]: out[0,0,2]
Out[79]:
array([[3, 5, 6, 3],
[3, 0, 1, 5],
[5, 5, 3, 5],
[0, 8, 2, 4]]) # ............

In [80]: out[1,2,2] # last block
Out[80]:
array([[1, 8, 6, 0],
[1, 7, 6, 8],
[3, 1, 6, 1],
[2, 4, 8, 3]])

关于python - Numpy - 切片图像时最小内存使用量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43822413/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com