gpt4 book ai didi

python - 快速读取和处理许多 JPG 图像的方法

转载 作者:行者123 更新时间:2023-11-28 19:22:40 30 4
gpt4 key购买 nike

我正在处理一个项目:

  • 70,000 张 JPG 图片,总计 1 GB
  • 每个文件大约 15kb。
  • 每张图片都是 424x424。

我当前处理这些文件的解决方案是拍摄每张图像,将其裁剪为 150x150,然后将其保存在 NumPy 内存映射数组中。我最终得到 1 个尺寸为 70,000 x 150 x 150 x 3(彩色图像)的大型 memmap 数组文件。

我的下一步是遍历这个 memmap 数组并随机采样图像 block 。然而,我的代码目前运行非常缓慢,最烦人的是,它只使用了大约 10% 的 CPU,HD 读取速度为 1-5 MB/秒。这可能比不预先计算裁剪的 numpy 内存映射数组并每次读取 JPG 还要低。

如何更好地利用我的系统资源?

系统信息

  • Mac 操作系统
  • 配备硬盘的 Macbook Pro

谢谢!

最佳答案

首先,@AndreiBoyanov 的评论对我来说真的很有道理。

这是另一种方法。

>>> 7e4 * 150**2 * 3 / 1024.**3
4.400499165058136

memmap 的后端文件将增长到 4.4 GB。如果你的 OS X 机器有更多的 RAM,你可以在 RAM 磁盘上创建后端文件,比如 5 GB:

这几乎相当于丢弃了 memmap,但它可以快速解决您的问题。

关于python - 快速读取和处理许多 JPG 图像的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21348552/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com