【opencv】传统图像识别：hog+svm行人识别实战-6ren

【opencv】传统图像识别：hog+svm行人识别实战

转载作者：我是一只小鸟更新时间：2023-08-15 14:31:30

25

4

实战工具：python3.7+pycharm+opencv4.6 算法知识：HOG特征提取、SVM模型构建实战目的：本次实战的目的是熟悉HOG+SVM工作流算法，初步掌握图像分类的传统算法。实战记录：本以为在学习原理、算法应用、动手实操后会很顺利的完全自主实现行人检测项目，但实战过程却差强人意，所以结果嘛就马马虎虎了。实战过程中所爆露出的不足有以下几点:

对opencv、numpy、python的基础知识掌握的不够全面、牢固；
对HOG算法的输出数据形式理解不深刻；
对SVM模型的相关参数、函数方法一知半解，特别是数据在svm中的作用、输出。

实战评价：虽然坎坎坷坷，但还过得去.

1. 准备工作

本次实战使用的数据是MIT行人数据库（有现成的资料，懒得收集啦），该数据库为较早公开的行人数据库，共924张行人图片（ppm格式，宽高为64x128），肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本，未区分训练集和测试集。Dalal等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。该数据库的下载链接见这里 .

2. 实战代码

                        
                          """
加载并整理数据集-->图像的预处理-->图像的特征提取
-->设计分类器-->输出分类器准确率-->测试图像
"""
import cv2
import random
import glob
import numpy as np


# 加载本地图像数据集，并将数据集全部添加到列表中，然后打乱数据顺序
def load_image(filename):
    paths = glob.glob(filename)
    persons, labels = [], []
    for i in paths:
        persons.append(cv2.imread(i))
        labels.append(1)
    random.seed(1)
    random.shuffle(persons)
    persons = np.array(persons)
    return persons, labels


# 图像预处理，将输入图像灰度化、高斯模糊
def image_preprocessing(image):
    cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
    # image = cv2.resize(image, dsize=(32, 64))
    image_preprocess = cv2.GaussianBlur(image, (3, 3), sigmaX=1, sigmaY=1)
    return image_preprocess


# 构建HOG检测器
def get_hog():
    winSize = (64, 128)
    cellSize = (8, 8)
    blockSize = (16, 16)
    blockStride = (16, 16)
    nbins = 9
    signedGradient = True
    derivAperture = 1  # 默认参数
    winSigma = -1.  # 默认参数
    histogramNormType = 0  # 默认参数
    L2HysThreshold = 0.2  # 默认参数
    gammaCorrection = 1  # 默认参数
    nlevels = 64  # 默认参数
    hog = cv2.HOGDescriptor(winSize, blockSize, blockStride, cellSize, nbins, derivAperture, winSigma,
                            histogramNormType, L2HysThreshold, gammaCorrection, nlevels, signedGradient)
    return hog


# 创建SVM模型并配置参数
def SVM_model():
    model = cv2.ml.SVM_create()
    model.setType(cv2.ml.SVM_ONE_CLASS)
    model.setKernel(cv2.ml.SVM_POLY)
    model.setC(1)
    model.setNu(0.01)
    model.setDegree(0.1)
    model.setCoef0(0.5)
    model.setGamma(0.6)
    model.setTermCriteria((cv2.TERM_CRITERIA_MAX_ITER, int(1e2), 1e-5))
    return model


# 训练模型
def SVM_train(model, samples, responses):
    model.train(samples, cv2.ml.ROW_SAMPLE, responses)
    return model


# 计算分类器准确率
def accuracy(model, data_train, labels_train):
    retval, result = model.predict(data_train)
    temp = (np.array(labels_train) == result).mean()
    print(f'该模型的准确率是：{temp * 100}')


# 测试分类器
def image_predict(model, data_test, samples, labels_test):
    retval, result = model.predict(samples)
    counter = 0
    for i in (labels_test == result.ravel()):
        # 测试结果与实际结果不符合仅呈现红色通道
        if not i:
            data_test[counter][..., :2] = 0
            counter += 1
    h1 = data_test[0]
    for i in data_test[1:12, ...]:
        h1 = np.hstack((h1, i))
    h2 = data_test[12]
    for i in data_test[13:, ...]:
        h2 = np.hstack((h2, i))
    return np.vstack((h1, h2))


if __name__ == "__main__":
    print('加载图片...')
    datas, labels = load_image('image\\Pedestrian detection\\per*.ppm')
    temp, data_test = np.split(datas, [900])

    print('数据预处理...')
    datas = list(map(image_preprocessing, datas))

    print('提取训练数据的HOG特征向量...')
    hog = get_hog()
    hog_vector = list(map(hog.compute, datas))

    print('将数据集分为两部分，900张用于训练，24张用于测试...')
    data_train, temp = np.split(datas, [900])
    labels_train, labels_test = np.split(np.array(labels), [900])
    hog_vector_train, hog_vector_test = np.split(hog_vector, [900])

    print('训练SVM模型...')
    model = SVM_model()
    model_svm = SVM_train(model, hog_vector_train, labels_train)

    print('输出分类模型的准确率...')
    accuracy(model_svm, hog_vector_train, labels_train)

    print('测试分类模型...')
    result = image_predict(model_svm, data_test, hog_vector_test, labels_test)

    cv2.imshow('result, press the q key to exit', result)
    while 1:
        if cv2.waitKey() == ord('q'):
            break

    print('测试其他图像...')
    class_name = {0: "不包含行人", 1: "包含行人"}
    img = cv2.imread('image\\persontrain.png')
    img = cv2.resize(img, dsize=(64, 128))
    img2 = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY)
    img_preprocess = cv2.GaussianBlur(img2, (3, 3), sigmaX=1, sigmaY=1)
    # vector = np.array([hog.compute(img_preprocess)])
    vector = np.expand_dims(hog.compute(img_preprocess), 0)
    ret = model_svm.predict(vector)[1].ravel()
    print(f"图片img{class_name[int(ret)]}")

    cv2.imshow('img', img)
    cv2.waitKey()
    cv2.destroyAllWindows()


'''
加载图片...
数据预处理...
提取训练数据的HOG特征向量...
将数据集分为两部分，900张用于训练，24张用于测试...
训练SVM模型...
输出分类模型的准确率...
该模型的准确率是：99.0
测试分类模型...
测试其他图像...
图片img包含行人
'''

测试图片集的结果：测试的其他图片:

3. 项目总结

HOG的特征提取的是图像的特征向量，该向量用于作为svm模型train()的"samples"输入变量。当然，在测试图像使用predict()函数时输入的也是图像的特征向量---"samples"。
不同的SVMType有不同的作用，主要分为分类和回归两类。其中分类可分为单分类 ONE_CLASS 和非单分类 SVM_C_SVC 和 NU_SVC 。本项目用的是单分类类型。
hog.conpute(img) 、 model.train(samples, layout, responses) 、 model.predict(samples) 的关系：
- hog.conpute(img) 提取的是单张图像的一维特征向量，如果要提取图像集的特征向量可以使用 map() 或者for循环。 hog.conpute(img) 处理后的结果一般被用于训练、测试模型。
- model.train(samples, layout, responses) ，该函数的三个参数分别是训练样本集的特征向量矩阵、每个样本特征向量在矩阵的形式、标签矩阵。layout--- cv2.ml.ROW_SAMPLE ，表示每个训练样本是行向量； cv2.ml.COL_SAMPLE ，表示每个训练样本是列向量。layout的值决定了输入的samples中每个样本特征向量在矩阵中的形式。
- model.predict(samples) 中的samples矩阵形式取决于 model.train(samples, layout, responses) 中layout的值。该函数的返回值有两个 retval 和 result ，测试样本的标签值存储在 result.ravel() 中。

最后此篇关于【opencv】传统图像识别：hog+svm行人识别实战的文章就讲到这里了,如果你想了解更多关于【opencv】传统图像识别：hog+svm行人识别实战的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

25

4

0

文章推荐：抢先体验！超强的AnchorPositioning锚点定位

文章推荐：学好Elasticsearch系列-索引的批量操作

文章推荐： Combobox后台绑定

文章推荐： Redis专题-队列

windows - gcc 可被 cmd 识别，但不能被 bash 识别
我使用的是linux的windows子系统，安装了ubuntu，bash运行流畅。我正在尝试使用make，似乎bash 无法识别gcc。尝试将其添加到 PATH，但没有任何改变。奇怪的是 - cmd
installation - Imagick 被 WAMPServer 识别，但不被 PHP 识别
ImageMagick 已正确安装。 WAMP 的“PHP 扩展”菜单也显示带有勾选的 php_imagick。除了 Apache 和系统环境变量外，phpinfo() 没有显示任何 imagick
deterministic - 如果一种语言 (L) 被 n 状态 NFA 识别，它是否也能被状态不超过 2^n 的 DFA 识别？
我是这么想的，因为上限是 2^n，并且考虑到它们都是有限机，n 状态 NFA 和具有 2^n 或更少状态的 DFA 的交集将是有效。我错了吗？最佳答案你是对的。 2^n 是一个上限，因此生成的
r - 识别/描述向量中具有特定值的连续几天的序列
我有一个大型数据集，其中包含每日值，指示一年中的特定一天是否特别热(用 1 或 0 表示)。我的目标是识别 3 个或更多特别炎热的日子的序列，并创建一个包含每个日子的长度以及开始和结束日期的新数据集。
识别 R 向量中的特定元素顺序模式
我有一个向量列表，每个向量看起来像这样 c("Japan", "USA", "country", "Japan", "source", "country", "UK", "source", "coun
c - 识别/防止静态缓冲区溢出的工具和方法
是否有任何工具或方法可以识别静态定义数组中的缓冲区溢出(即 char[1234] 而不是 malloc(1234))？昨天我花了大部分时间来追踪崩溃和奇怪的行为，最终证明是由以下行引起的: // e
python - 手动创建的snakemake通配符未使用/识别
我一直在尝试通过导入制表符分隔的文件来手动创建 Snakemake 通配符，如下所示: dataset sample species frr PRJNA493818_GSE120639_SRP1628
python - 手动创建的snakemake通配符未使用/识别
我一直在尝试通过导入制表符分隔的文件来手动创建 Snakemake 通配符，如下所示: dataset sample species frr PRJNA493818_GSE120639_SRP1628
c# - 人声识别/识别
我想录下某人的声音，然后根据我获得的关于他/她声音的信息，如果那个人再次说话，我就能认出来!问题是我没有关于哪些统计数据(如频率)导致人声差异的信息，如果有人可以帮助我如何识别某人的声音？在研究过程
c++ - 识别 “Enter”
我希望我的程序能够识别用户何时按下“enter”并继续循环播放。但是我不知道如何使程序识别“输入”。尝试了两种方法: string enter; string ent = "\n"; dice d1;
识别 Bash 脚本中文件扩展名的正则表达式模式对于捕获压缩文件不准确
我创建了这个带有一个参数(文件名)的 Bash 小脚本，该脚本应该根据文件的扩展名做出响应: #!/bin/bash fileFormat=${1} if [[ ${fileFormat} =~ [F
ios - 识别 subview
我正在寻找一种在 for 循环内迭代时识别 subview 对象的方法，我基本上通过执行 cell.contentView.subviews 从 UITableView 的 contentView 获
Swift CallKit 识别
我正在尝试在 Swift 中使用 CallKit 来识别调用者。我正在寻找一种通过发出 URL 请求来识别调用者的方法。例如:+1-234-45-241 给我打电话，我希望它向 mydomain.
javascript - 厚盒插件 - 识别
我将(相当古老的)插件称为“thickbox”，如下所述: 创建厚盒时，它包含基于查询的内容列表。使用 JavaScript 或 jQuery，我希望能够访问 type 的值(在上面的示例中 t
c++ - 识别/生成波形？
我想编写一些可以接受某种输入并将其识别为方波、三角波或某种波形的代码。我还需要一些产生所述波的方法。我确实有使用 C/C++ 的经验，但是，我不确定我将如何模拟所有这些。最终，我想将其转换为微 Co
C# 识别 for 循环中的项目
我创建了一个 for 循环，用于在每个部分显示 8 个项目，但我试图在循环中识别某些项目。例如，我想识别前两项，然后是第五项和第六项，但我的识别技术似乎是正确的。 for (int i = 0; i
ios - 识别 UIStoryboard
如何识别 UIStoryboard？该类具有创建和实例化的方法，但我没有看到带有类似name 的@property。例如获取 Storyboard对象 + storyboardWithName:b
识别 MSSQL 各个版本的版本号的方法
如何确定所运行的SQLServer2005的版本要确定所运行的SQLServer2005的版本，请使用SQLServerManagementStudio连接到SQLServer2005，然后运行
javascript - 识别 Javascript 中的函数名称或属性
这个问题在这里已经有了答案: How to check whether an object is a date? (26 个答案) 关闭2 年前。我正在使用一个 npm 模块，它在错误时抛出一个空
android - 后台 Activity 识别
我正在制作一个使用 ActivityRecognition API 在后台跟踪用户 Activity 的应用，如果用户在指定时间段(例如 1 小时)内停留在同一个地方，系统就会推送通知告诉用户去散步.

首页

博学

6Ren·AI

商城