gpt4 book ai didi

matlab - 聚类和贝叶斯分类器 Matlab

转载 作者:太空宇宙 更新时间:2023-11-03 19:20:57 26 4
gpt4 key购买 nike

所以我正处于下一步该做什么的十字路口,我开始学习一些机器学习算法并将其应用于复杂的数据集,现在我已经做到了。我从一开始的计划就是将两个可能的分类器结合起来,试图建立一个多分类系统。

但这就是我被困的地方。我选择聚类算法(模糊 C 均值)(在学习了一些样本 K 均值之后)和朴素贝叶斯作为 MCS(多分类器系统)的两个候选算法。

我可以独立使用两者来对数据进行分类,但我很难以有意义的方式将两者结合起来。

例如,模糊聚类捕获了几乎所有的“Smurf”攻击,通常一个除外,我不确定为什么它没有捕获这个奇怪的球,但我所知道的是它没有。其中一个集群将以 smurf 攻击为主,通常我会在其他集群中发现一个 smurf。这就是我遇到问题场景的地方,如果我在所有不同的攻击类型(Smurf、正常、海王星等)上训练贝叶斯分类器并将其应用于集群的其余部分以试图找到最后一个remaining smurf 它会有很高的误报率。

我不确定如何进行,我不想将其他攻击从训练集中移除,但我只想训练贝叶斯分类器来识别“Smurf”攻击。目前它被训练去尝试发现所有东西,在这个过程中我认为(不确定)准确性下降了。

所以这是我在使用朴素贝叶斯分类器时的问题,如何让它只查找 smurf 并将其他所有内容归类为“其他”。

 rows = 1000;
columns = 6;

indX = randperm( size(fulldata,1) );
indX = indX(1:rows)';

data = fulldata(indX, indY)

indX1 = randperm( size(fulldata,1) );
indX1 = indX1(1:rows)';


%% apply normalization method to every cell
%data = zscore(data);

training_data = data;
target_class = labels(indX,:)

class = classify(test_data,training_data, target_class, 'diaglinear')
confusionmat(target_class,class)

我当时的想法是手动将 target_class 从所有正常流量和攻击中更改为 other。然后,由于我已经知道 FCM 正确地对除一次 smurf 攻击之外的所有攻击进行了分类,我只需要在剩余的集群上使用朴素贝叶斯分类器。

例如:

集群 1 = 500 次 smurf 攻击(重复此步骤可能会将 1000 个样本中的“大部分”smurf 攻击转移到不同的集群中,因此我必须检查或遍历集群以获得最大的大小,一旦找到我就可以将其从朴素贝叶斯分类器阶段删除)

然后我在每个剩余的集群上测试分类器(不确定如何在 matlab 中进行循环等)所以目前我必须在处理过程中手动选择它们。

    clusters = 4;
CM = colormap(jet(clusters));
options(1) = 12.0;
options(2) = 1000;
options(3) = 1e-10;
options(4) = 0;
[~,y] = max(U);
[centers, U, objFun] = fcm(data, clusters, options); % cluster 1000 sample data rows

training_data = newTrainingData(indX1,indY); % this is the numeric data
test_data = fulldata(indX(y==2),:); % this is cluster 2 from the FCM phase which will be classified.
test_class = labels(indX(y==2),:); % thanks to amro this helps the confusion matrix give an unbiased error detection rate in the confusion matrix.
target_class = labels(indX,:) % this is labels for the training_data, it only contains the smurf attacks while everything else is classed as other

class = classify(test_data,training_data, target_class, 'diaglinear')
confusionmat(test_class,class)

然后我对每个剩余的集群重复贝叶斯分类器,寻找那个 smurf 攻击。

我的问题是,如果它将“其他”攻击错误分类为 smurf 或没有找到剩余的 smurf,会发生什么情况。

我对更好的方法感到迷茫。我正在尝试选择 smurf 攻击与“其他”的良好比例,因为我不想过度拟合,这在上一个问题中已经解释过 here .

但这会花费我一些时间,因为我还不知道如何在 matlab 中将现有标签从海王星、后退、ipsweep、wareclient 攻击更改/替换为“其他”,所以我还不能测试这个理论(将到达那里)。

所以我的问题是:

1) 是否有更好的方法来发现这种难以捉摸的 smurf 攻击。

2) 我怎样才能 grep target_class(标签)来用“other”替换所有不是 smurf 的东西

最佳答案

我将尝试部分回答您的问题。

1) Is there a better method at finding that one elusive smurf attack.

我建议你不要尝试这个。 500 分之一。这显然是数据过度拟合的情况。您的分类器无法很好地概括测试数据。

2) How can I grep the target_class (labels) to replace everything that isn't smurf with "other"

为此请尝试以下 matlab 代码。

clear all;
close all;
load fisheriris
IndexOfVirginica = strcmp (species, 'virginica');
IndexOfNotVirginica = IndexOfVirginica ==0;
otherSpecies = species;
otherSpecies(IndexOfNotVirginica) = {'other'};
otherSpecies

关于matlab - 聚类和贝叶斯分类器 Matlab,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11566964/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com