gpt4 book ai didi

machine-learning - 频繁上课如何应对?

转载 作者:行者123 更新时间:2023-11-30 09:13:27 25 4
gpt4 key购买 nike

我正在 Weka 中处理一项分类任务,并遇到一个问题:我要预测的类有一个非常频繁的值(大约 85%)。这导致许多学习算法只是预测新数据集的此类的频繁值。

我该如何处理这个问题?这是否仅仅意味着我没有找到足够好的特征来预测更好的事情?或者我可以做些什么来解决这个问题?

我想这是一个非常常见的问题,但我无法在这里找到解决方案。

最佳答案

您需要“SMOTE”您的数据。首先计算出您还需要多少个少数案例实例。就我而言,我想要获得大约 50/50 的比率,因此我需要过度采样 1300%。如果您使用 GUI,本教程将会有所帮助:http://www.youtube.com/watch?v=w14ha2Fmg6U如果您使用 Weka 从命令行执行此操作,则可以使用以下命令:

#Weka 3.7.7
java weka.Run -no-scan weka.filters.supervised.instance.SMOTE \
-c last -K 25 -P 1300.0 -S 1 -i input.arff -o output.arff

-K 选项是 smoting 数据时要考虑的邻居数量。默认值为 5,但 25 最适合我的数据集。

关于machine-learning - 频繁上课如何应对?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17722227/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com