作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个航类延误数据集,并尝试在采样之前将数据集拆分为训练集和测试集。准时病例约占总数据的 80%,延迟病例约占总数据的 20%。
通常在机器学习中,训练集和测试集大小的比例为 8:2。但数据太不平衡了。因此考虑到极端情况,火车数据大部分是准时情况,而测试数据大部分是延误情况,准确性会很差。
所以我的问题是如何正确分割不平衡的数据集来训练和测试集?
最佳答案
可能仅通过训练和测试的比率,您可能无法获得正确的预测和结果。
如果您正在处理不平衡的数据集,您应该尝试重新采样技术以获得更好的结果。如果数据集不平衡,分类器总是“预测”最常见的类别,而不对特征进行任何分析。
在数据集不平衡的情况下,还可以使用不同的指标进行性能测量,例如 F1 分数等
请浏览以下链接,它会让您更清楚。
What is the correct procedure to split the Data sets for classification problem?
关于python - 如何正确地将不平衡数据集拆分为训练集和测试集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57229775/
我是一名优秀的程序员,十分优秀!