gpt4 book ai didi

python - 内存中 numpy 数组(图像、uint8)的有损压缩

转载 作者:行者123 更新时间:2023-11-30 22:10:35 24 4
gpt4 key购买 nike

我正在尝试将 1.000.000 张图像的数据集加载到内存中。作为标准 numpy 数组(uint8),所有图像组合起来填充大约 100 GB 的 RAM,但我需要将其降低到 < 50 GB,同时仍然能够快速将图像读回 numpy(这就是将所有内容保留在内存中的全部意义) )。像 blosc 这样的无损压缩只能将文件大小减少大约 10%,所以我选择了 JPEG 压缩。最小示例:

import io
from PIL import Image

numpy_array = (255 * np.random.rand(256, 256, 3)).astype(np.uint8)
image = Image.fromarray(numpy_array)
output = io.BytesIO()
image.save(output, format='JPEG')

在运行时我正在读取图像:

[np.array(Image.open(output)) for _ in range(1000)]

JPEG 压缩非常有效(< 10 GB),但是将 1000 张图像读回 numpy 数组所需的时间约为 2.3 秒,这严重影响了我的实验性能。我正在寻找能够在压缩和读取速度之间实现更好权衡的建议。

最佳答案

我仍然不确定我理解你想要做什么,但我创建了一些虚拟图像并做了一些测试,如下所示。我将展示我是如何做到这一点的,以防其他人想尝试其他方法并想要一个数据集。

首先,我使用 GNU ParallelImageMagick 创建了 1,000 个图像,如下所示:

parallel convert -depth 8 -size 256x256 xc:red +noise random -fill white -gravity center -pointsize 72 -annotate 0 "{}" -alpha off s_{}.png ::: {0..999}

这给了我 1,000 个名为 s_0.pngs_999.png 的图像,图像 663 如下所示:

enter image description here

然后我做了我认为你正在尝试做的事情 - 尽管很难从你的代码中看出:

#!/usr/local/bin/python3

import io
import time
import numpy as np
from PIL import Image

# Create BytesIO object
output = io.BytesIO()

# Load all 1,000 images and write into BytesIO object
for i in range(1000):
name="s_{}.png".format(i)
print("Opening image: {}".format(name))
im = Image.open(name)
im.save(output, format='JPEG',quality=50)
nbytes = output.getbuffer().nbytes
print("BytesIO size: {}".format(nbytes))

# Read back images from BytesIO ito list
start=time.clock()
l=[np.array(Image.open(output)) for _ in range(1000)]
diff=time.clock()-start
print("Time: {}".format(diff))

从 BytesIO 对象中读取所有 1,000 个图像并将它们转换为 numpy 数组需要 2.4 秒。

然后,我通过减少到 256 种颜色来对图像进行调色(我同意这是有损的 - 就像你的方法一样),并保存了调色图像对象的列表,稍后我可以通过简单地调用将其转换回 numpy 数组:

np.array(ImageList[i].convert('RGB'))

将数据存储为调色板图像可节省 66% 的空间,因为每个像素仅存储 1 个字节的调色板索引,而不是 3 个字节的 RGB,因此它比您寻求的 50% 压缩更好。

#!/usr/local/bin/python3

import io
import time
import numpy as np
from PIL import Image

# Empty list of images
ImageList = []

# Load all 1,000 images
for i in range(1000):
name="s_{}.png".format(i)
print("Opening image: {}".format(name))
im = Image.open(name)
# Add palettised image to list
ImageList.append(im.quantize(colors=256, method=2))

# Read back images into numpy arrays
start=time.clock()
l=[np.array(ImageList[i].convert('RGB')) for i in range(1000)]
diff=time.clock()-start
print("Time: {}".format(diff))

# Quick test
# Image.fromarray(l[999]).save("result.png")

现在需要 0.2 秒而不是 2.4 秒 - 希望您未声明的应用程序可以接受颜色精度的损失:-)

关于python - 内存中 numpy 数组(图像、uint8)的有损压缩,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51667881/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com