gpt4 book ai didi

machine-learning - 逻辑回归训练数据集真/假比

转载 作者:行者123 更新时间:2023-11-30 09:01:25 24 4
gpt4 key购买 nike

我正在开发一个基于 Spark ML 的逻辑回归分类器。我想知道我是否应该为 true 和 false 训练相同数量的数据。

我的意思是当我想把人分为男性或女性时用100个男性数据+100个女性数据训练一个模型可以吗?

网上的人可能有40%是男性,60%是女性,但这个百分比是根据过去预测的,所以它可以改变(比如30%女性,70%男性)

在这种情况下。我应该训练多少比例的女性/男性数据?这与过度拟合有关吗?

当我训练一个40%女性+60%男性的模型时,对70%女性+30%男性组成的字段数据进行分类是没有用的?

Spark 分类样本数据有 43 个 false,57 个 true。 https://github.com/apache/spark/blob/master/data/mllib/sample_binary_classification_data.txt

逻辑回归中训练数据的真/假比是什么意思?

我的英语确实不好,但希望你能理解我。

最佳答案

只要合理,使用什么比例并不重要。

60:40、30:70、50:50,没关系。只要确保它不会太不平衡,例如 99:1。

如果整个数据集的女性:男性比例为 70:30,而您只想使用此数据集的一个子集,那么采用 60:40 的女性:男性比例不会杀死您。

考虑以下示例:您的测试数据包含 99% 的男性和 1% 的女性。

从技术上讲,您可以对所有男性进行正确分类,对所有女性进行分类错误,并且您的算法将显示 1% 的错误。看起来不错吧?不,因为你的数据太不平衡了。

这种低误差不是过度拟合(高方差)的结果,而是数据集不平衡的结果。

这是一个极端的例子,但你明白了。

关于machine-learning - 逻辑回归训练数据集真/假比,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33451364/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com