gpt4 book ai didi

machine-learning - 机器学习模型不适用于连续数据

转载 作者:行者123 更新时间:2023-11-30 09:44:01 25 4
gpt4 key购买 nike

我正在尝试建立一个机器学习模型来根据棒球运动员的击球数和安打数来预测击球率。自:

Batting Average = Hits/At Bats

我认为这种关系相对更容易发现。然而,由于击球平均值是 float 的(即 0.300),我尝试的所有模型都会返回以下错误:

ValueError: Unknown label type: 'continuous'

我正在使用 sklearns 模型。我尝试过 LogisticRegression、RandomForestClassifier、LinearRegression。他们都有同样的问题。

通过阅读有关此错误的其他 StackOverflow 帖子,我开始这样做:

lab_enc = preproccessing.LabelEncoder()
y = pd.DataFrame(data=lab_enc.fit_transform(y))

这似乎改变了诸如 0.227 到 136 之类的值,这对我来说似乎很奇怪。可能只是因为我不太明白转换在做什么。如果可能的话,我更愿意只使用实际的击球平均值。

有没有办法让我在预测连续值时尝试使用的模型?

最佳答案

您试图解决的问题属于回归(即数值预测)背景,并且它当然可以通过机器学习算法来处理。

I'm using sklearns models. I've tried LogisticRegression, RandomForestClassifier, LinearRegression. They all have the same problem.

您在此处提到的前两种算法(逻辑回归和随机森林分类器)用于分类问题,因此适合您的(回归)设置(它们预计会产生您提到的错误)。然而,线性回归合适的,并且在这里应该可以正常工作。

首先,请坚持使用线性回归,以说服自己它确实可以解决问题;您随后可以扩展到其他 scikit-learn 算法,例如 RandomForestRegressor 等。如果您遇到任何问题,请使用特定代码和错误提出新问题。 .

关于machine-learning - 机器学习模型不适用于连续数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54851373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com