gpt4 book ai didi

data-mining - 如何在 WEKA 中设置参数以平衡数据与 SMOTE 过滤器?

转载 作者:行者123 更新时间:2023-12-01 09:57:35 24 4
gpt4 key购买 nike

我在 WEKA 中使用 SMOTE 过滤器来平衡数据。
我对nearestNeighborspercentage这两个参数存有疑虑。

nearestNeighbors -- 要使用的最近邻居的数量。
百分比——要创建的 SMOTE 实例的百分比。

我应该如何设置它们?

我认为邻居的数量是它要创建的合成样本的数量。
那么百分比是什么意思呢?它应该小于或等于邻居的数量,对吧?是否考虑了合成样本的百分比?

例如:
如果我放 10 个邻居和 200% 会发生什么?
谁能给我一些正确使用的例子?

最佳答案

nearestNeighbors 参数说明有多少最近邻实例(围绕当前考虑的实例)用于构建中间合成实例。默认值为 5。因此,使用真实存在实例的 5 个最近邻居的属性来计算新的合成实例。

percentage 参数表示基于具有较少实例的类的数量创建了多少合成实例(默认情况下 - 您也可以通过设置 -C 选项)。默认值为 100。这意味着如果您的少数类中有 25 个实例,则再次从这些实例中合成创建 25 个实例(使用它们最近邻居的值)。 200% 会创建 50 个合成实例,依此类推。

有关更多信息,请参阅 weka doc of SMOTEoriginal paper of Chawla et al. 2002 ,其中对整个方法进行了深入解释。

对我来说,Weka SMOTE 似乎只是对实例进行了过采样。因此,您还可以使用受监督的 SpreadSubsample之后过滤以对少数类实例进行欠采样。

关于data-mining - 如何在 WEKA 中设置参数以平衡数据与 SMOTE 过滤器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22632932/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com