python - 在 Python 中计算图像数据集 channel 明智均值和标准差的最快方法-6ren

python - 在 Python 中计算图像数据集 channel 明智均值和标准差的最快方法

转载作者：太空狗更新时间：2023-10-29 21:45:12

24

4

我有一个内存无法容纳的巨大图像数据集。我想计算均值和标准差，从磁盘加载图像。

我目前正在尝试使用在 wikipedia 上找到的算法.

# for a new value newValue, compute the new count, new mean, the new M2.
# mean accumulates the mean of the entire dataset
# M2 aggregates the squared distance from the mean
# count aggregates the amount of samples seen so far
def update(existingAggregate, newValue):
    (count, mean, M2) = existingAggregate
    count = count + 1 
    delta = newValue - mean
    mean = mean + delta / count
    delta2 = newValue - mean
    M2 = M2 + delta * delta2

    return existingAggregate

# retrieve the mean and variance from an aggregate
def finalize(existingAggregate):
    (count, mean, M2) = existingAggregate
    (mean, variance) = (mean, M2/(count - 1)) 
    if count < 2:
        return float('nan')
    else:
        return (mean, variance)

这是我当前的实现(只为红色 channel 计算):

count = 0
mean = 0
delta = 0
delta2 = 0
M2 = 0
for i, file in enumerate(tqdm(first)):
    image = cv2.imread(file)
    for i in range(224):
        for j in range(224):
            r, g, b = image[i, j, :]
            newValue = r
            count = count + 1
            delta = newValue - mean
            mean = mean + delta / count
            delta2 = newValue - mean
            M2 = M2 + delta * delta2

print('first mean', mean)
print('first std', np.sqrt(M2 / (count - 1)))

这个实现在我尝试过的数据集的一个子集上工作得非常接近。

问题是它非常慢，因此不可行。

是否有执行此操作的标准方法？
我如何调整它以获得更快的结果或计算所有数据集的 RGB 均值和标准差，而无需同时以合理的速度将其全部加载到内存中？

最佳答案

由于这是一项繁重的数值任务(围绕矩阵或张量进行大量迭代)，我总是建议使用擅长此操作的库:numpy。

正确安装的 numpy 应该能够利用底层 BLAS(基本线性代数子例程)例程，这些例程针对从内存层次结构角度操作 float 组进行了优化。

imread 应该已经为您提供了 numpy 数组。您可以通过

获得红色 channel 图像的 reshape 一维数组

import numpy as np
val = np.reshape(image[:,:,0], -1)

平均数

np.mean(val)

和标准偏差

np.std(val)

这样就可以摆脱两层python循环:

count = 0
mean = 0
delta = 0
delta2 = 0
M2 = 0
for i, file in enumerate(tqdm(first)):
    image = cv2.imread(file)
        val = np.reshape(image[:,:,0], -1)
        img_mean = np.mean(val)
        img_std = np.std(val)
        ...

其余的增量更新应该很简单。

一旦你这样做了，瓶颈就会变成图像加载速度，它受到磁盘读取操作性能的限制。在这方面，根据我以前的经验，我怀疑像其他人建议的那样使用多线程会有很大帮助。

关于python - 在 Python 中计算图像数据集 channel 明智均值和标准差的最快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47850280/

24

4

0

文章推荐： c++ - 模板化 c++ 类的 cython 包装给出 undefined symbol

文章推荐： c# - GC 没有完成 UserControl？

文章推荐： c++ - 新运算符(以及 malloc)无法分配 ~ 450 MB 内存

c - 创建许多线程条件变量和互斥量是否合理/明智？
我有一个包含 1+N 个线程和 N 个 FIFO 队列的程序，例如:FIFO_queue_t* fifo_queque[N]。一个线程负责填充这 N 个 FIFO 队列。并且其他每个线程都与 1 个
windows-installer - 明智:如何将文件安装到注册表中指定的路径中
我正在使用 Wise Installer Editor 编写 .msi，并且我想将所有文件复制到注册表项中指定的目录中。我如何在 Wise 中指定这一点？提前致谢，埃内斯托最佳答案您可以尝试
Azure 磁盘空间 VM 明智
我们有一个场景，其中我们尝试获取附加的磁盘虚拟机以及分配给这些磁盘的相应总空间。是否有任何命令或脚本可以获取详细信息？我已使用命令 Get-AzureDisk 获取输出，但它没有显示列表中的所有虚拟
C++ 在构造函数中使用 "initializer"类是否合适/明智？
我有一个包含多个派生类的类，每个派生类都有自己的构造函数。 class A { public: static A *create_new_A(int child_ID);
seo - 不从索引链接任何页面是否可能/明智？ (搜索引擎优化，搜索引擎)
我有一个小问题:) 我计划建立一个相当不寻常的 web 项目，大约有 1000 个页面，其中不会有经典的导航(仅适用于关于页面和联系人)，并且所有页面都不会链接到一个又一个。它的索引 > 打开随机页
iphone - 使用内存中持久存储作为临时区域是否可能/明智，如果可以，我该如何清除它？
我们的应用程序中有一些数据。有时它会被保存，所以我们为它做了一个实体和一个 NSManagedObject 子类。但是，通常情况下，对象将被实例化并且永远不会保存。我正在考虑使用另一个具有 NSInM
mysql - 类(class)明智，具有最大总分的学生姓名
假设我有一个表如下: Class | Subject | Student | Marks ---------------------------------------- 1
javascript - 将项目分组到一个对象中，然后将其转换为数组以便在 Javascript 中进行排序是否有效/明智？
刚刚在我正在编写的一些代码中偶然发现了这种情况，并且很好奇“正确”的方法是什么。举例来说，我有一大堆对象，我需要按某个属性对其进行分组，但组的顺序很重要。例如。对象: var obj = {
android - 如何在 Android N 中允许多窗口功能 Activity 明智？
如何在 Android 应用 Activity 中启用 Mutli 窗口选项？我尝试在两个单独的 Activity 中使用 AndroidManifest Activity 属性 android:r
java - 在同一个项目中使用 gradle war 和 ear 插件是否可能/明智？
我发现 ear 插件覆盖了 war 插件并阻止调用 war 任务。我通过直接调用它来绕过它。这是远程明智的还是我应该放弃并转向 eclipse 和 gradle 中的多项目设置？ ear {
windows-installer - 将 Inno Setup 安装程序包装在 MSI 中以便更轻松地通过 AD 分发是否可行/明智？
我们的安装程序是用 Inno Setup 编写的，我们实际上对它非常满意。然而，一些客户不断要求他们可以更轻松地通过 Active Directory 分发 MSI 安装程序。通过扩展 Inno Se
c# - 将 ASP.Net Core 2 (.NET Framework) Web Api 拆分为类库和托管项目是否可能/明智？
我正在尝试使用 Visual Studio 2017 (v15.4.5) 将现有的 WCF Web API(针对 .NET Framework 4.6.1)移植到 ASP.Net Core 2，但在找

首页

博学

6Ren·AI

商城

python - 在 Python 中计算图像数据集 channel 明智均值和标准差的最快方法