gpt4 book ai didi

python - 如何正确地将不平衡数据集拆分为训练集和测试集?

转载 作者:行者123 更新时间:2023-11-30 09:42:19 24 4
gpt4 key购买 nike

我有一个航类延误数据集,并尝试在采样之前将数据集拆分为训练集和测试集。准时病例约占总数据的 80%,延迟病例约占总数据的 20%。

通常在机器学习中,训练集和测试集大小的比例为 8:2。但数据太不平衡了。因此考虑到极端情况,火车数据大部分是准时情况,而测试数据大部分是延误情况,准确性会很差。

所以我的问题是如何正确分割不平衡的数据集来训练和测试集?

最佳答案

可能仅通过训练和测试的比率,您可能无法获得正确的预测和结果。

如果您正在处理不平衡的数据集,您应该尝试重新采样技术以获得更好的结果。如果数据集不平衡,分类器总是“预测”最常见的类别,而不对特征进行任何分析。

在数据集不平衡的情况下,还可以使用不同的指标进行性能测量,例如 F1 分数等

请浏览以下链接,它会让您更清楚。

What is the correct procedure to split the Data sets for classification problem?

Cleveland heart disease dataset - can’t describe the class

关于python - 如何正确地将不平衡数据集拆分为训练集和测试集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57229775/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com