gpt4 book ai didi

python - 如何存储和加载庞大的图像数据集?

转载 作者:太空宇宙 更新时间:2023-11-03 15:21:50 24 4
gpt4 key购买 nike

我有一个很大的图像数据集要存储。我有 300,000 张图像。每个图像都是 28800 像素的向量,这意味着我有一个 (300000, 28800) 的矩阵

我将其存储如下

img_arr = np.stack(images, axis=0)

np.savetxt('pixels_dataset_large.csv',img_arr,delimiter=",")

但是加载它需要很长时间,有时我会遇到内存错误:

data_pixels=np.genfromtxt("pixels_dataset_large.csv", delimiter=',')

是否有任何替代方案可以最佳地存储和加载它?

最佳答案

如果您要将 300,000 x 28,000 数据保存到 csv,那么假设采用浮点表示形式,您将看到输出文件大小略小于 1 TB,具体取决于输出的精度。即使您有 1 TB 的磁盘空间,在这种规模下 CSV 的效率也极其低下。

在这种情况下我建议使用一些二进制存储方案(例如 hdf5)。您可以查看xarray包:它非常适合处理这种大小的密集数组数据,它有一个与 NumPy 非常相似的 API,它甚至利用 Dask用于对并行和/或内存映射计算的透明支持。

关于python - 如何存储和加载庞大的图像数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43474274/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com