- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我需要使用半径为 17 或更大的 3D 结构元素来计算形状为 (400,401,401)、大小为 64320400 字节的 3D 数组的形态学开度。结构元素ndarray的大小为
42875 字节。使用 scipy.ndimage.morphology.binary_opening
,整个过程消耗8GB RAM。
我已阅读 scipy/ndimage/morphology.py
在 GitHub 上,据我所知,形态侵 eclipse 算子是用纯 C 语言实现的。我很难理解 ni_morphology.c
源,所以我没有发现这段代码的任何部分会导致如此巨大的内存利用率。添加更多 RAM 不是一个可行的解决方案,因为内存使用可能会随着结构元素半径呈指数增长。
要重现问题:
import numpy as np
from scipy import ndimage
arr_3D = np.ones((400,401,401),dtype="bool")
str_3D = ndimage.morphology.generate_binary_structure(3,1)
big_str_3D = ndimage.morphology.iterate_structure(str_3D,20)
arr_out_3D = ndimage.morphology.binary_opening(arr_3D, big_str_3D)
最佳答案
我也做粒度增加半径的开口,我遇到了同样的问题。事实上,内存使用量大约增加了 R^6,其中 R 是球形内核的半径。这是一个相当大的增长率!我做了一些内存分析,包括将开孔拆分为腐 eclipse ,然后是膨胀(开孔的定义),发现大量内存使用来自 SciPy 的二进制文件,并在结果返回到调用 Python 脚本后立即清除. SciPy 的形态代码大部分是用 C 实现的,因此修改它们是一个困难的前景。
无论如何,OP 的最后一条评论是:“经过一些研究,我转向使用卷积的 Opening 实现 -> 傅立叶变换的乘法 - O(n log n),并且没有那么大的内存开销。”帮我找出解决方案,所以谢谢你。然而,实现起初并不明显。对于遇到此问题的任何其他人,我将在此处发布实现。
我将开始谈论膨胀,因为二值腐 eclipse 只是二值图像的补码(逆)的膨胀,然后将结果反转。
简而言之:根据this white paper by Kosheleva et al ,膨胀可以被视为数据集 A 与结构元素(球核)B 的卷积,阈值高于某个值。卷积也可以在频率空间中完成(通常快得多),因为频率空间中的乘法与实际空间中的卷积相同。因此,通过首先对 A 和 B 进行傅立叶变换,将它们相乘,然后对结果进行逆变换,然后对大于 0.5 的值进行阈值处理,就可以得到 A 与 B 的膨胀。(请注意,我链接的白皮书说阈值高于 0,但大量测试表明,这给出了许多工件的错误结果;another white paper by Kukal et al . 将阈值设为 >0.5,这对我来说给出了与 scipy.ndimage.binary_dilation 相同的结果。我不知道为什么差异,我想知道我是否错过了引用文献 1 命名法的一些细节)
正确的实现涉及填充大小,但对我们来说幸运的是,它已经在 scipy.signal.fftconvolve(A,B,'same')
中完成了。 - 此函数执行我刚刚描述的操作并为您处理填充。将第三个选项设为“相同”将返回与 A 大小相同的结果,这正是我们想要的(否则它将被 B 的大小填充)。
所以膨胀是:
from scipy.signal import fftconvolve
def dilate(A,B):
return fftconvolve(A,B,'same')>0.5
from scipy.signal import fftconvolve
import numpy as np
def erode_v1(A,B,R):
#R should be the radius of the spherical kernel, i.e. half the width of B
A_inv = np.logical_not(A)
A_inv = np.pad(A_inv, R, 'constant', constant_values=1)
tmp = fftconvolve(A_inv, B, 'same') > 0.5
#now we must un-pad the result, and invert it again
return np.logical_not(tmp[R:-R, R:-R, R:-R])
from scipy.signal import fftconvolve
import numpy as np
def erode_v2(A,B):
thresh = np.count_nonzero(B)-0.5
return fftconvolve(A,B,'same') > thresh
关于python - Scipy ndimage 形态学运算符使我的计算机内存 RAM (8GB) 饱和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25034259/
如果我们想访问数组的元素 i,我们会这样做:i *(每个元素的大小)+ 数组的起始地址 = 我们需要访问的元素的内存位置。然后 CPU 直接访问 RAM 中的该位置。这是怎么发生的? 假设我要定位的内
考虑以下 python 代码 with open(sys.argv[2], 'r') as fin, \ open(sys.argv[3], 'w') as fout:
基本上我在 Centos 6.2 16GB 系统上运行我的世界服务器 我通过 rtoolkit 引导来启动我的服务器,现在我分配它使用 12GB,但它使用的 muc 比这多,我不知道为什么。我运行此命
我正在开发一个小型 x86 内核。我正在访问并尝试读取 GRUB 在多重引导 header 中提供的内存映射。我有一个 Intel i3 cpu 和 4 GiB 的 RAM。在这台机器上运行时,我正在
我有 3 GB 内存。有没有办法只为 C++ 应用程序分配 512MB 的 RAM? 否则 有没有办法暂时将我的 RAM 减少到 512MB 以进行测试? 谢谢,阿肖克 最佳答案 使用SetProce
我的一个 friend 告诉我,在 x86 架构上,DMA Controller 无法在两个不同的 RAM 位置之间传输。它只能在RAM和外设(如PCI总线)之间传输。 这是真的吗? 因为 AFAIK
做一些分析(内存和速度) 我一直被 win7 似乎分配的 RAM 正好是我要求的两倍这一事实所困扰...注意这是我第一次在 win7 上进行这样的主动分析,所以我真的不知道会发生什么。 我在 win7
我经常玩 retrofit 版的 Minecraft。这样做的一个缺点是,每当我启动 Minecraft 时,编译所有模组都需要花费大量时间。这可能需要大约 15 分钟左右的时间,在我看来,这太长了。
我想编写一个内核模块,可以通过 DMA 将数据从 RAM 传输到 RAM。有一些帖子讨论这个,但我真的不明白。有人说可能,也有人说不可能。 如果我对 ldd3 的理解是正确的,RAM 到 RAM 的复
我正在寻找一种方法来查找总内存和正在使用的内存的单个熟值输出。 gwmi Win32_OperatingSystem | select TotalVisibleMemorySize, FreePhys
我在 Heroku 上有一个网络应用程序,我试图了解添加具有 1GB RAM 的 Memcached 实例与向我的 Postgres 服务器添加 1GB RAM 之间的区别/权衡。 如果我添加一个 M
在我的例子中,我有一个包含大约 6000 个实例化类的字典,其中每个类都有 1000 个属性变量,所有类型都是字符串或字符串列表。当我建立这本字典时,我的 RAM 变得非常高。有没有一种方法可以在将字
我的问题是:如果您用完了所有可用的视频内存,并尝试创建新纹理 (SDL),是否会自动使用普通内存而不是视频内存?或者,您是否必须尝试使用使用普通 ram 的表面 (SDL)?如果您出于任何原因无法
我在从 ram 地址获取值时遇到问题。 我有一些限制,即它必须是 C 代码,并且存储信息的地址由 u32 值给出,例如 0x001c0080。 环境是ARM的,我用的是eclipse sdk。我怎样才
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a software
我正在尝试使用 GCC 编译器(标准 C)编译裸机应用程序。我使用 Cyclone V SoC 和 Cortex-A9 处理器。 eclipse DS-5。我收到这些错误 - “Region ram
如果 RAM 不是问题(我的服务器上有接近 200GB),是逐行读取更快还是将所有内容读入 RAM 并访问它?每行将是大约 200-500 个 unicode 字符的字符串。每个文件有近 200 万行
我在我的两台机器上运行以下命令: import os, sqlite3 import pandas as pd from feat_transform import filter_anevexp db
我正在尝试在我的一个项目中引入一些 CUDA 优化。但我认为我在这里做错了什么。我想实现一个简单的矩阵 vector 乘法 (result = matrix * vector)。但是当我想将结果复制回
#include #include #include #include #include #include using namespace std; char randomLetter()
我是一名优秀的程序员,十分优秀!