gpt4 book ai didi

python - 数据科学模型达到非常高的、意想不到的准确度?

转载 作者:太空宇宙 更新时间:2023-11-03 15:33:12 24 4
gpt4 key购买 nike

所以我正在训练高斯贝叶斯分类器,出于某种原因,我在分类报告中的所有内容上都变得完美。显然这是错误的,我想知道为什么会这样。我在该领域没有太多经验,因此不胜感激!Kaggle 内核链接: https://www.kaggle.com/rafayk7/kickstarter-real

features_train, features_test, target_train, target_test = train_test_split(
data_analyze_scaled,
target,
test_size = 0.2,
random_state=42
)

print(features_train.shape)
print(target_train.shape)
print(features_test.shape)
print(target_test.shape)

给予

(265337, 254)
(265337,)
(66335, 254)
(66335,)

然后当我训练它时,

model = GaussianNB()

pred = model.fit(features_train, target_train).predict(features_test)

accuracy = classification_report(pred, target_test)
print(accuracy)

这给了我 1.0 的一切(准确率、召回率、准确率 f1)即使是逻辑回归模型也能给我 100% 的准确率。我不认为这是过度拟合,因为它是 100%。任何帮助表示赞赏!

这是数据的快照: enter image description here

target = data_analyze_scaled['state']
data_analyze_scaled.drop('state', axis=1)

这是我在 train_test_split 中使用的目标和 data_analyze_scaled

最佳答案

错误在 data_analyze_scaled.drop('state', axis=1) 中。此语句将从数据框中删除列 state 并返回修改后的数据框,该数据框必须保存在另一个数据框对象中,例如:

data_analyze_scaled_x = data_analyze_scaled.drop('state', axis=1)

现在您应该在训练测试拆分中使用它。

在您现有的实现中,您已将目标变量作为模型的一个特征。因此无论您使用哪种模型,准确度都将是 1。

关于python - 数据科学模型达到非常高的、意想不到的准确度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56740537/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com