gpt4 book ai didi

image-processing - 定向梯度直方图

转载 作者:行者123 更新时间:2023-12-04 01:12:02 25 4
gpt4 key购买 nike

我一直在阅读有关用于对象(人类)检测的 HOG 描述符的理论。但是我对实现有一些疑问,这听起来可能是一个微不足道的细节。

关于包含块的窗口;窗口是否应该逐个像素地移动到窗口重叠的图像上,如下所示:enter image description here

或者应该在不引起任何重叠的情况下移动窗口,如下所示:enter image description here

到目前为止,我看到的插图使用了第二种方法。但是,考虑到检测窗口的大小为 64x128,很可能通过在图像上滑动窗口无法覆盖整个图像。如果图像大小为 64x255,则不会检查最后 127 个像素的对象。所以,第一种方法似乎更合理,但是,更多的时间和 CPU 消耗。

有任何想法吗?
先感谢您。

编辑:我尝试坚持 Dalal 和 Triggs 的原始论文。可以在此处找到实现该算法并使用第二种方法的一篇论文:http://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf

最佳答案

编辑:
对不起 - 我误解了你的问题。 (另外,我提供给错误问题的答案是错误的——我已经根据上下文调整了下面的答案。)

您问的是使用 HOG 描述符进行检测,而不是生成 HOG 描述符。

在您上面引用的实现文件中,看起来它们与检测窗口重叠。窗口大小为 64x128,而他们使用 32 像素的水平跨距和 64 像素的垂直跨距。他们还提到他们尝试了更小的跨距值,但这导致更高的误报率(在他们的实现中)。

最重要的是,他们使用了输入图像的 3 个比例:1、1/2 和 1/4。他们没有提到检测窗口的任何相应缩放 - 从检测的角度来看,我不确定这会产生什么影响。似乎这也会隐含地产生重叠。

原始答案(更正):

查看 Dalal 和 Triggs 论文(在第 6.4 节中),他们似乎提到了 i) 没有块重叠,以及 ii) 在生成 HOG 描述符时的半块和四分之一块重叠。根据他们的结果,听起来更大的重叠产生了更好的检测性能(尽管需要更大的资源/处理成本)。

关于image-processing - 定向梯度直方图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5596284/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com