gpt4 book ai didi

python - 为什么 Python 的 Hog 输出 (scikit-image) 与 MATLAB 的 Hog (vlfeat) 不同?

转载 作者:太空宇宙 更新时间:2023-11-04 06:00:00 26 4
gpt4 key购买 nike

我有一段 MATLAB 代码,它从图像中提取一个 91x91 的像素 block ,然后用苹果 HOG 提取其特征向量。我想用 Python 重写函数。我一直在努力寻找如何在 Python 中获得与在 MATLAB 中相同的 HOG 返回值,但没有成功。如果您能提供任何帮助,我将不胜感激。

VLFeat 库(http://www.vlfeat.org/overview/hog.html)用于 MATLAB 代码,我在 Python 中使用 scikit-image(http://scikit-image.org/docs/dev/api/skimage.feature.html?highlight=peak_local_max#skimage.feature.hog)。

在Matlab中,输入'im2single(patch)'是一个91*91的数组,而Hog返回的数据类型是4*4*16 single。HoG是使用23的单元格大小和方向数来应用的共 4 个。

     hog = vl_hog(im2single(patch),23, 'variant', 'dalaltriggs', 'numOrientations',4) ;

返回的数据为4*4*16单条,可以显示为:

     val(:,:,1) =

0 0 0 0
0 0 0 0
0 0.2000 0.2000 0.0083
0 0.2000 0.2000 0.0317

....

val(:,:,16) =

0 0 0 0
0 0 0 0
0 0 0.0526 0.0142
0 0 0.2000 0.2000

然后手动将结果展平为 256*1 的特征向量。综上所述,在一个91*91的像素 block 中,提取了一个256*1的特征向量。现在我想在 Python 中获得相同的结果。

在我的 Python 代码中,我尝试应用具有相同单元格大小和方向数的 HOG。 block 大小设置为 (1,1)

    tc = hog(repatch, orientations=4, pixels_per_cell=(23,23), cells_per_block= (1,1), visualise=False, normalise=False)

我附加了patch的大小为92*92,所以patch的大小是cell大小的整数倍。输入数组现在称为“repatch”。然而,输出 'tc' 是一个 64*1 数组(梯度直方图被展平为特征向量)

   tc.shape 

(64,)

然后我查看了 Skimage 源代码,

    orientation_histogram = np.zeros((n_cellsy, n_cellsx, orientations))
orientation_histogram.shape
(4, 4, 4)

这里的 n_cellsx 是:x 中的单元格数,n_cellsy 是:y 中的单元格数。看起来 Hog 的输出与 orientation_histogram 的维度高度相关。

HoG 返回值的实际维度由以下因素决定:

    normalised_blocks = np.zeros((n_blocksy, n_blocksx,by, bx, orientations))

其中 n_blocksy, n_blocksy 的计算方式是:

    n_blocksx = (n_cellsx - bx) + 1
n_blocksy = (n_cellsy - by) + 1

n_cellsx为:x中的单元格个数,这里取值为4,n_cellsy也是; bx,by是cells_per_block,也就是(1,1);在这种情况下,方向是 4。

似乎返回值的大小(normalised_blocks)是通过 4*4*1*1*4 (n_blocksy * n_blocksx * by * bx * orientations) 计算的

我已经尝试更改 block 大小,但仍然无法达到我的预期...(虽然 block 大小为 (2,2),但返回值为 144*1 数组)

谁能帮忙...我怎样才能得到与在 Matlab 中相同的 Hog 输出?非常感谢。

最佳答案

与 scikit-image 相比,VLFeat 库做了一些不同的事情。 VLFeat 库返回 9(方向数)对比度不敏感、18 个对比度敏感和 4 个维度,这些维度捕获方形 block (包含四个单元格)中的整体梯度能量。所以它每个单元格输出 31 个维度。然而,scikit-image 过程是不同的,我认为你已经很好地理解了它。

根据我的经验,如果您想使用 scikit-image 和 MATLAB 找到相同的 HoG 向量,您肯定至少应该为 scikit-image 放置 cells_per_block= (2,2)

关于python - 为什么 Python 的 Hog 输出 (scikit-image) 与 MATLAB 的 Hog (vlfeat) 不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25602247/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com