gpt4 book ai didi

python - 如何在机器学习前诊断中看到完全相同的特征

转载 作者:太空宇宙 更新时间:2023-11-03 14:38:36 25 4
gpt4 key购买 nike

我想看看,我的数据是否可以达到高精度,或者不是基于完全相同的特征(不是目标变量),这是我的数据:

X1 X2 X3 X4 y
2 3 4 5 1
5 2 3 2 0
2 3 4 5 1
5 2 2 2 0
4 3 2 5 1
2 3 4 5 0
5 2 2 2 0

我想看到的是

X1 X2 X3 X4 y
2 3 4 5 1
2 3 4 5 1
2 3 4 5 0
5 2 2 2 0
5 2 2 2 0

所以我可以对这个完全相同的特征进行诊断,有什么建议吗?

最佳答案

您想使用pd.DataFrame.duplicated 。包含参数 keep=False 以便识别所有具有重复项的行。

df[df.drop('y', 1).duplicated(keep=False)]

X1 X2 X3 X4 y
0 2 3 4 5 1
2 2 3 4 5 1
3 5 2 2 2 0
5 2 3 4 5 0
6 5 2 2 2 0

请注意,我 drop('y', 1) 是为了删除 'y' 列。这样做的目的是将重复的评估限制为非 'y' 列。 我们还可以使用duplicatedsubset 参数。

df[df.duplicated(['X1', 'X2', 'X3', 'X4'], keep=False)]

X1 X2 X3 X4 y
0 2 3 4 5 1
2 2 3 4 5 1
3 5 2 2 2 0
5 2 3 4 5 0
6 5 2 2 2 0

关于python - 如何在机器学习前诊断中看到完全相同的特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46722369/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com