gpt4 book ai didi

machine-learning - SMOTE后产生的结果可靠吗?

转载 作者:行者123 更新时间:2023-11-30 09:12:38 29 4
gpt4 key购买 nike

我有一个倾斜的数据集,其中包含 Twitter 推文和与之相关的情绪。正面情绪:负面情绪的比率约为 1:4(训练集)。当我在Weka(没有SOMTE)上运行训练集时,结果并不令人满意。所以我使用 SMOTE 来平衡类(class)。之后我得到的结果要好得多。我使用Libsvm进行分类。

这种 SMOTE 技术生成的模型有多可靠?对于这种不平衡的数据集,我们是否可以始终使用 SMOTE?我是 ML 和 weka 的新手,所以对这些东西不太了解。

最佳答案

这要看情况。无论是随机采样还是合成采样,过采样和欠采样都有很多优点和缺点。应通过比较训练和交叉验证或测试误差来检查结果。还通过在 y 轴上绘制错误率和在 x 轴上绘制数据大小来绘制学习曲线。这样可以检测到过于乐观的结果、泛化能力等。有时我们仅仅因为过度拟合就能得到好的分数。我使用了SMOTE并取得了很好的效果。但后来我必须检查我提到的流程,看看有多好。针对类别不平衡问题,您可能会尝试的另一件事是保持数据集不变,然后应用成本敏感的学习器,该学习器将根据某些权重对 FP 和 FN 进行惩罚。您还可以对不平衡数据集应用常规算法,然后应用成本敏感评估(例如成本曲线)。这条曲线可以告诉你的模型在给定 50-50 平衡数据集的情况下会如何执行。

关于machine-learning - SMOTE后产生的结果可靠吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28958200/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com