- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在使用 OpenCV SVM 实现来二进制预测图像特征的重要性。因此,我正在根据正面和负面图像特征对其进行训练,并在 {0,1} 中寻找分类。
我遇到的问题是,在训练之后,SVM 总是预测具有更高/更大类别标签的类别。我可以更改训练数据集的标签,但这个问题仍然存在。我仔细检查了生成的标签和训练的 cv::Mat 矩阵,没有发现任何问题。
下面是我的 SVM 类和附带的 SVM 参数
//Populate the SVM parameters
void SVM::setSVMParams()
{
params.svm_type = cv::SVM::C_SVC;
params.kernel_type = cv::SVM::RBF;
params.term_crit = cv::TermCriteria(CV_TERMCRIT_ITER, 100, 1e-6);
params_set = true;
}
//Train the SVM with the given data
void SVM::train(cv::Mat train_data, cv::Mat labels)
{
//Set the SVM parameters if they haven't been already
if (!params_set)
{
setSVMParams();
}
svm.train(train_data, labels, cv::Mat(), cv::Mat(), params);
}
//Based on training, predict the class of the given data
float SVM::predict(cv::Mat sample)
{
return svm.predict(sample, false);
}
这里是负责生成训练数据和相应标签的函数
//Creates the appropriate training data and class labels for subsequent SVM training according to supplied D threshold
void Matchings::createSVMTrainingObjects(const float t_D, const float positive_label, const float negative_label, bool print_info)
{
cv::Mat train_data_l((int)matchings_list.size(), 132, CV_32FC1);
cv::Mat labels_l((int)matchings_list.size(), 1, CV_32FC1);
int num_pos = 0;
int num_neg = 0;
for (int i = 0; i < matchings_list.size(); i++)
{
matching_d entry = matchings_list[i];
//Important feature, label 1
if (entry.D > t_D)
{
labels_l.at<float>(i) = positive_label;
num_pos++;
}
//Unimportant feature, label -1
else
{
labels_l.at<float>(i) = negative_label;
num_neg++;
}
int j = 0;
//Copy feature into current row of openCV matrix
train_data_l.at<float>(i, j++) = entry.feature.x;
train_data_l.at<float>(i, j++) = entry.feature.y;
train_data_l.at<float>(i, j++) = entry.feature.scale;
train_data_l.at<float>(i, j++) = entry.feature.angle;
for (int k = 0; k < 128; k++)
{
train_data_l.at<float>(i, j + k) = entry.feature.vec[k];
}
}
std::cout << "For training: #+ves=" << num_pos << ", #-ves=" << num_neg << std::endl;
train_data = train_data_l;
labels = labels_l;
}
最后,这里是实际调用 SVM 预测结果以保留重要图像特征的函数
matchingslist ASIFT::filterFeaturesWithSVM(matchingslist matchings, SVM& svm)
{
matchingslist new_matchings;
for (int i = 0; i < (int)matchings.size(); i++)
{
cv::Mat first = Utility::keypointToMat(matchings[i].first);
cv::Mat second = Utility::keypointToMat(matchings[i].second);
//If both features are of importance, retain them
if (svm.predict(first) == 1.0f && svm.predict(second) == 1.0f)
{
new_matchings.push_back(matchings[i]);
}
else
{
std::cout << "Feature removed" << std::endl;
}
}
return new_matchings;
}
最佳答案
该方法的一个主要问题是您在使用 RBF 时没有设置 SVM 的超参数,因此可能 C=1
和 gamma=1/d
(或 1/mean ||x||^2
),因为这些是大多数 SVM 实现中的默认值。
虽然这些对于构建有效模型至关重要。特别是,如果您的 C
值太低(1
可能是,取决于数据的许多特征),那么 SVM 会构建一个简单的模型总是预测其中一个类。
你应该做什么?您应该检查 C
和 gamma
的多个值。这些参数的含义是什么?
C
(您的1
)是错误分类的权重 - C
越大,SVM 将更加努力地准确学习训练数据,可能以过度拟合为代价。gamma
(您的默认值)是 RBF 核的 2 倍方差的倒数。换句话说 - Gamma 越大,高斯越小,因此 - 你的方法在几何意义上更“局部”。同样 - 大 Gamma 可以帮助您最大限度地减少训练误差(偏差),但会导致更高的测试误差(方差)。正确选择方差偏差之间的权衡是机器学习技术的关键要素。在 RBF SVM 的情况下——你可以通过上面的方法来控制它。和他们一起玩,检查训练集错误和测试集错误,看看发生了什么。如果你的训练集错误很大——增加 C 和/或 Gamma 。一旦你的训练集误差没问题,看看测试集——如果它太大——尝试减少值等等。它通常通过一些内部交叉验证和参数的网格搜索以自动方式完成。
查看关于模型选择和超参数优化的资料。
此外你固定迭代次数
params.term_crit = cv::TermCriteria(CV_TERMCRIT_ITER, 100, 1e-6);
而对于 SVM,您永远不应该这样做。让它收敛(或者至少放 100,000 之类的东西),在仅仅 100 步之后,SVM 可能甚至没有接近收敛(因此导致了微不足道的模型)。
关于c++ - OpenCV SVM 总是预测更高类别的标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33755408/
如果我在 lrge 训练集上训练 SVM,并且类变量是 True 或 False,那么与训练集中的 False 值数量相比,True 值很少会影响训练模型/结果吗?他们应该平等吗?如果我的训练集的 T
假设我的特征向量是 (x1, x2, ...xn) 谁能给我一个代码来使用 libSVM 训练一类 SVM? 我应该如何使用交叉验证来学习参数。 最佳答案 这可能会帮助你 label=ones(Num
我提前为这个问题的新颖性道歉,但我被卡住了。我正在尝试解决这个问题, 我可以做第 i)-1v) 部分,但我卡在了 v 上。我知道计算余量 y,你可以 y=2/||W|| 而且我知道W是超平面的法线,只
我有以下 R 配置: 操作系统:LinuxR 版本 3.0.1 (2013-05-16)rmr2 版本 2.2.1rhdfs 版本 1.0.6hadoop 版本 1.2.0 如何使用带 rmr2 包的
我想尝试不同的嵌入,例如 Word2Vec、ELMo 和 BERT,但我有点困惑是使用词嵌入还是句子嵌入,以及为什么。我将嵌入用作 SVM 分类器的特征输入。 谢谢。 最佳答案 虽然这两种方法都可以证
几乎所有的例子都是基于数字的。在文本文档中,我有文字而不是数字。 那么你能告诉我如何使用这些算法进行文本文档分类的简单示例吗? 我不需要代码示例,只需要逻辑 伪代码将有很大帮助 最佳答案 常用的方法是
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 3 年前。
我目前正处于语音识别的讨论阶段项目,我使用MFCC特征提取,但是从函数返回的MFCC特征是一个矩阵,例如每个语音文件(wav)的(20,38)特征矩阵。但是我如何将此功能传递给 SVM 分类器。对于
请我喜欢用 SIFT DESCRIPTOR 和 SVM 将一组图像分类为 4 类。现在,使用 SIFT 提取器,我得到了不同大小的关键点,例如 img1 有 100 个关键点,img2 有 55 个关
我有一组图像。我想学习一类支持向量机(OC-SVM)来模拟特定类(正)的分布,因为我没有足够的例子来代表其他类(负)。我对 OC-SVM 的理解是,它试图将数据与源分离,换句话说,它试图学习一个超球体
我正在使用 scikit-learn 使用 SVM 构建一些预测模型。我有一个包含大约 5000 个示例和大约 700 个特征的数据集。我在我的训练集上使用 18x17 网格搜索进行 5 折交叉验证,
这是我考试时提出的问题。我给出了以下答案,我的得分是0分。教授甚至不同意给予任何部分的认可,也没有告诉我我的答案有什么问题。谁能帮我找出我的答案有什么问题吗? 这是我在考试中给出的答案。缺点是:1)
tune.svm() 和 best.svm() 有什么区别。 当我们调整 svm 内核的参数时,我们不希望总是为我们的模型选择最佳值。 请原谅,因为我是 R 和机器学习的新手。 我注意到在调整 svm
我尝试使用 OpenCV2.3 实现基于 SVM 和 HOG 的人员检测系统。但是我卡住了。 我走到这一步:我可以从图像数据库计算 HOG 值,然后我用 LIBSVM 计算 SVM 向量,所以我得到例
Mahout(机器)中围绕 SVM(支持向量机)的任何新发展Learning With Hadoop) 使用 Hadoop?最近 SVM 实现被添加到 Mahout 中。我打算使用 SVM。有人尝试过
我使用 sklearn.svm.SVC 构建支持向量分类器,如下所示。 import numpy as np from sklearn.svm import SVC svc=SVC(proba
我想看看模型是否收敛于我的交叉验证。我如何增加或减少 sklearn.svm.SVC 中的时代? 目前: SVM_Model = SVC(gamma='auto') SVM_Model.fit(X_t
与在 SVM 的相同成本函数中使用 2-范数权重相比,我们如何通过在成本函数中使用 1-范数权重来提高稀疏性。 对于 1-范数:成本函数 - 最小化 ||w||_1 对于 2-范数:成本函数 - 最小
事实上,我不是一个经验丰富的 C++ 程序员,我是一个 C# 程序员,正如你所知道的,它有很大的不同,根据我的机器学习经验,我只使用了 matlab,所以如果我有一些,请原谅概念错误。 我正在尝试在
我正在尝试使用 OpenCV 中的 SVM 加载函数加载 .xml 文件,然后使用预测函数对交通标志进行分类。当到达预测函数的执行时抛出错误: Unhandled exception at 0x000
我是一名优秀的程序员,十分优秀!