matlab - 使用交叉验证和 F1 分数选择 SVM 参数-6ren

matlab - 使用交叉验证和 F1 分数选择 SVM 参数

转载作者：行者123 更新时间：2023-11-30 08:37:26

我需要在 SVM 中调整 C 和 Sigma 时跟踪 F1 分数，例如，下面的代码跟踪准确度，我需要将其更改为 F1-Score，但我无法做到这一点……。

%# read some training data
[labels,data] = libsvmread('./heart_scale');

%# grid of parameters
folds = 5;
[C,gamma] = meshgrid(-5:2:15, -15:2:3);

%# grid search, and cross-validation
cv_acc = zeros(numel(C),1);
    for i=1:numel(C)
cv_acc(i) = svmtrain(labels, data, ...
                sprintf('-c %f -g %f -v %d', 2^C(i), 2^gamma(i), folds));
end

%# pair (C,gamma) with best accuracy
[~,idx] = max(cv_acc);

%# now you can train you model using best_C and best_gamma
best_C = 2^C(idx);
best_gamma = 2^gamma(idx);
%# ...

我看到了以下两个链接

Retraining after Cross Validation with libsvm

10 fold cross-validation in one-against-all SVM (using LibSVM)

我确实明白，我必须首先在训练数据上找到最佳的 C 和 gamma/sigma 参数，然后使用这两个值进行留一交叉验证分类实验，所以我现在想要的是首先进行网格搜索来调整 C 和 sigma。请我更喜欢使用 MATLAB-SVM 而不是 LIBSVM。下面是我的留一交叉验证分类代码。

... clc
 clear all
close all
a = load('V1.csv');
X = double(a(:,1:12));
Y = double(a(:,13));
% train data
datall=[X,Y];
A=datall;
n = 40;
ordering = randperm(n);
B = A(ordering, :);  
good=B; 
input=good(:,1:12);
target=good(:,13);
CVO = cvpartition(target,'leaveout',1);  
cp = classperf(target);                      %# init performance tracker
svmModel=[];
for i = 1:CVO.NumTestSets                                %# for each fold
trIdx = CVO.training(i);              
teIdx = CVO.test(i);                   
%# train an SVM model over training instances

svmModel = svmtrain(input(trIdx,:), target(trIdx), ...
       'Autoscale',true, 'Showplot',false, 'Method','ls', ...
      'BoxConstraint',0.1, 'Kernel_Function','rbf', 'RBF_Sigma',0.1);
%# test using test instances
pred = svmclassify(svmModel, input(teIdx,:), 'Showplot',false);
%# evaluate and update performance object
cp = classperf(cp, pred, teIdx); 
end
%# get accuracy
accuracy=cp.CorrectRate*100
sensitivity=cp.Sensitivity*100
specificity=cp.Specificity*100
PPV=cp.PositivePredictiveValue*100
NPV=cp.NegativePredictiveValue*100
%# get confusion matrix
%# columns:actual, rows:predicted, last-row: unclassified instances
cp.CountingMatrix
recallP = sensitivity;
recallN = specificity;
precisionP = PPV;
precisionN = NPV;
f1P = 2*((precisionP*recallP)/(precisionP + recallP));
f1N = 2*((precisionN*recallN)/(precisionN + recallN));
aF1 = ((f1P+f1N)/2);

我已经更改了代码但我犯了一些错误，并且出现了错误，

a = load('V1.csv');
X = double(a(:,1:12));
Y = double(a(:,13));
% train data
datall=[X,Y];
A=datall;
n = 40;
ordering = randperm(n);
B = A(ordering, :);  
good=B; 
inpt=good(:,1:12);
target=good(:,13);
k=10;
cvFolds = crossvalind('Kfold', target, k);   %# get indices of 10-fold CV
cp = classperf(target);                      %# init performance tracker
svmModel=[];
for i = 1:k 
    testIdx = (cvFolds == i);    %# get indices of test    instances
trainIdx = ~testIdx;   
C = 0.1:0.1:1; 
S = 0.1:0.1:1; 
fscores = zeros(numel(C), numel(S)); %// Pre-allocation
for c = 1:numel(C)   
for s = 1:numel(S)
    vals = crossval(@(XTRAIN, YTRAIN, XVAL, YVAL)(fun(XTRAIN, YTRAIN, XVAL, YVAL, C(c), S(c))),inpt(trainIdx,:),target(trainIdx));
    fscores(c,s) = mean(vals);
end
end
 end

[cbest, sbest] = find(fscores == max(fscores(:)));
C_final = C(cbest);
S_final = S(sbest);

......

以及功能......

.....
function fscore = fun(XTRAIN, YTRAIN, XVAL, YVAL, C, S)
svmModel = svmtrain(XTRAIN, YTRAIN, ...
   'Autoscale',true, 'Showplot',false, 'Method','ls', ...
  'BoxConstraint', C, 'Kernel_Function','rbf', 'RBF_Sigma', S);

   pred = svmclassify(svmModel, XVAL, 'Showplot',false);

   cp = classperf(YVAL, pred)
   %# get accuracy
    accuracy=cp.CorrectRate*100
    sensitivity=cp.Sensitivity*100
    specificity=cp.Specificity*100
    PPV=cp.PositivePredictiveValue*100
    NPV=cp.NegativePredictiveValue*100
    %# get confusion matrix
    %# columns:actual, rows:predicted, last-row: unclassified instances
    cp.CountingMatrix
    recallP = sensitivity;
    recallN = specificity;
    precisionP = PPV;
    precisionN = NPV;
    f1P = 2*((precisionP*recallP)/(precisionP + recallP));
    f1N = 2*((precisionN*recallN)/(precisionN + recallN));
    fscore = ((f1P+f1N)/2);

    end

最佳答案

所以基本上你想采用你的这一行:

svmModel = svmtrain(input(trIdx,:), target(trIdx), ...
       'Autoscale',true, 'Showplot',false, 'Method','ls', ...
      'BoxConstraint',0.1, 'Kernel_Function','rbf', 'RBF_Sigma',0.1);

将其放入一个改变 'BoxConstraint' 和 'RBF_Sigma' 参数的循环中，然后使用 crossval输出该迭代参数组合的 f1 分数。

您可以使用与 libsvm 代码示例中完全相同的单个 for 循环(即使用 meshgrid 和 1:numel()，这可能更快)或嵌套的 for 循环。我将使用嵌套循环，以便您可以使用两种方法:

C = [0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100, 300] %// you must choose your own set of values for the parameters that you want to test. You can either do it this way by explicitly typing out a list
S = 0:0.1:1 %// or you can do it this way using the : operator
fscores = zeros(numel(C), numel(S)); %// Pre-allocation
for c = 1:numel(C)   
    for s = 1:numel(S)
        vals = crossval(@(XTRAIN, YTRAIN, XVAL, YVAL)(fun(XTRAIN, YTRAIN, XVAL, YVAL, C(c), S(c)),input(trIdx,:),target(trIdx));
        fscores(c,s) = mean(vals);
    end
end

%// Then establish the C and S that gave you the bet f-score. Don't forget that c and s are just indexes though!
[cbest, sbest] = find(fscores == max(fscores(:)));
C_final = C(cbest);
S_final = S(sbest);

现在我们只需定义函数fun。文档对乐趣有这样的说法:

fun is a function handle to a function with two inputs, the training subset of X, XTRAIN, and the test subset of X, XTEST, as follows:

testval = fun(XTRAIN,XTEST) Each time it is called, fun should use XTRAIN to fit a model, then return some criterion testval computed on XTEST using that fitted model.

所以乐趣需要:

输出单个 f 分数
将 X 和 Y 的训练集和测试集作为输入。请注意，这些都是实际训练集的子集!将它们视为训练集的训练和验证子集。另请注意，crossval 将为您拆分这些设置!
在训练子集上训练分类器(使用循环中当前的 C 和 S 参数)
在测试(或验证)子集上运行新的分类器
计算并输出性能指标(在您的情况下，您需要 f1 分数)

您会注意到 fun 不能接受任何额外的参数，这就是为什么我将它包装在匿名函数中，以便我们可以传递当前的 C和 S 值。(即上面的所有 @(...)(fun(...)) 内容。这只是“转换”我们的六个的技巧将参数 fun 转换为 crossval 所需的 4 个参数之一。

function fscore = fun(XTRAIN, YTRAIN, XVAL, YVAL, C, S)

   svmModel = svmtrain(XTRAIN, YTRAIN, ...
       'Autoscale',true, 'Showplot',false, 'Method','ls', ...
      'BoxConstraint', C, 'Kernel_Function','rbf', 'RBF_Sigma', S);

   pred = svmclassify(svmModel, XVAL, 'Showplot',false);

   CP = classperf(YVAL, pred)

   fscore = ... %// You can do this bit the same way you did earlier
end

关于matlab - 使用交叉验证和 F1 分数选择 SVM 参数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28167652/

文章推荐： machine-learning - 日志文件中的文本聚类

文章推荐： java - JPanel 是否在类图中表示为它自己的类？

文章推荐： java - 如何通过配置spring xml来扩展spring

文章推荐： java - 从 base64 编码恢复文件名和扩展名

python - 运行Python代码时如何从Pylint获取报告+分数？
直接从 Python 代码运行 pylint 时，我似乎无法获得任何返回值。从命令行运行它会生成一个漂亮的报告，在底部有一个总结分数。我已经尝试将“Run”的返回值放入一个变量中，并获取它的“rep
python - 如何根据数据框中的单词检测分配点数/分数？
我是 Python 新手，正在尝试学习单词检测。我有一个带有单词的数据框 sharina['transcript'] Out[25]: 0 thank you for calling my
javascript - 分数 - 显示分数
http://jsfiddle.net/q8P7Y/ 我在最后显示最终分数时遇到问题，有很多方法可以做到这一点，但我不确定什么是最好的。正如你所看到的，下一个按钮只是 div 的显示/隐藏，而不是页
javascript - 滑动滑动自定义计数器(分数)
我使用滑动 slider 并有计数器分数。它计数很好，但我需要计数 =(所有幻灯片 - 1)。例如，如果我有 20 张幻灯片，我想显示总数 19。有什么办法可以做到这一点吗？我使用他们网站上的常规 j
javascript - 滑动滑动自定义计数器(分数)
我使用滑动 slider 并有计数器分数。它计数很好，但我需要计数 =(所有幻灯片 - 1)。例如，如果我有 20 张幻灯片，我想显示总数 19。有什么办法可以做到这一点吗？我使用他们网站上的常规 j
java - 分数++不起作用
我试图在按下按钮时添加分数，分数显示在 JTextField 中，但是当按下按钮时，分数会添加，它显示为 0。我有一个存储分数的整数字段 private int score=0; yesButton
java - 计算测验游戏的分数/分数
我可以在选项(单选按钮)随机播放之前计算分数/分数，如下面的代码所示。在Collection.shuffle()之前，选项是固定的，因为 CorrectChoice将始终分配给c2单选按钮。那么我可以
java - 胶粘剂作业1，分数
我在这里的代码只能得到87％的代码，因为“带有非正参数的加法参数什么也没做。我该如何解决呢？我尝试了更多的方法，但是我什至无法解决此错误在同学的帮助下说明是：对于此分配，您将创建一个存储分数的类。
再次 Java 分数
昨天，我尝试以一种方式执行此操作...今天我尝试另一种方式，但仍然卡住了。我必须找到一种使用整数除法和取模来做到这一点的方法。这是我的代码，后面是错误消息。 public int evaluateFr
php - 特殊字符显示为 ?分数
我这里有一些特殊字符: http://209.141.56.244/test/char.php 但是当我在这里通过 ajax 抓取这个文件时，它们显示为 back ?标记: http://209.14
algorithm - 获取图中的最大节点(分数)
我得到了一张图表 G与 n顶点，标记自 1至 n (2 a_1 -> a_2 -> ... a_k -> n A然后将占据 1 的所有“子节点”节点, a_1 , ... a_x (其中 x = ce
mongodb - 获取最近的名字，分数
我有一个看起来像这样的 mongodb 集合: db.scores.insert({"name": "Bob", value: 96.3, timeStamp:'2010-9-27 9:32:00'}
solr/lucene idf 分数
我试图更好地了解 lucene 如何对我的搜索进行评分，以便我可以对我的搜索配置或文档内容进行必要的调整。以下是分数明细的一部分。产品: 0.34472802 = queryWeight,
math - 我应该如何订购这些 "helpful"分数？
在我网站上用户生成的帖子下，我有一个类似亚马逊的评级系统: Was this review helpful to you: Yes | No 如果有投票，我会在该行上方显示结果，如下所示:
elasticsearch - 如何标准化 ElasticSearch 分数？
对于我的项目，我需要找出哪些搜索结果被视为“良好”匹配。目前，分数因查询而异，因此需要以某种方式对它们进行标准化。标准化分数将允许选择高于给定阈值的结果。我为 Lucene 找到了几个解决方案: h
r - 创建 z 分数
我有一个由 57 个变量组成的数据文件。由于测量水平不均匀，我想将其中的大约 12 个转换为 z 分数。我查找了互联网资源和帮助文件。一个互联网资源建议我需要 Rbasic 包(不存在)。我使用了 s
solr - 获得稳定的 SOLR 分数
我对 SOLR 核心运行查询并使用过滤器限制结果例如 fq: {!frange l=0.7 }query($q)。我知道 SOLR 分数不有绝对意义，但是0.7(只是一个例子)是计算出来的基于用户输入
SQL 查询从列表中获取最高 "n"分数
我想找到不同的方法来解决我遇到的现实生活问题:想象一下进行一场比赛或一场游戏，在此期间用户收集积分。您必须构建一个查询来显示具有最佳“n”分数的用户列表。我举一个例子来澄清。假设这是用户表，其中包含
lucene - 获取检索到的文档的一部分的 Lucene 分数
我有很多 wiki 页面，我想训练一个分类器，看看是否可以通过一些特征(包括段落的位置和段落的 lucene 分数)来确定重点搜索的位置。我尝试将每个段落视为一个文档，这使我能够获得每个段落的 luc
r - 为行子集创建 z 分数
我是 R 编程新手，在使用一些基本代码时遇到问题。我有一个包含以下列的数据框:条件(因子)、用户(因子)和灵敏度(int)。对于每个用户有 20 个敏感项。我需要为每个用户创建一个具有标准化敏感度分

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

matlab - 使用交叉验证和 F1 分数选择 SVM 参数