我想看看,我的数据是否可以达到高精度,或者不是基于完全相同的特征(不是目标变量),这是我的数据:
X1 X2 X3 X4 y
2 3 4 5 1
5 2 3 2 0
2 3 4 5 1
5 2 2 2 0
4 3 2 5 1
2 3 4 5 0
5 2 2 2 0
我想看到的是
X1 X2 X3 X4 y
2 3 4 5 1
2 3 4 5 1
2 3 4 5 0
5 2 2 2 0
5 2 2 2 0
所以我可以对这个完全相同的特征进行诊断,有什么建议吗?
您想使用pd.DataFrame.duplicated
。包含参数 keep=False
以便识别所有具有重复项的行。
df[df.drop('y', 1).duplicated(keep=False)]
X1 X2 X3 X4 y
0 2 3 4 5 1
2 2 3 4 5 1
3 5 2 2 2 0
5 2 3 4 5 0
6 5 2 2 2 0
请注意,我 drop('y', 1)
是为了删除 'y'
列。这样做的目的是将重复的评估限制为非 'y'
列。 我们还可以使用duplicated
的subset
参数。
df[df.duplicated(['X1', 'X2', 'X3', 'X4'], keep=False)]
X1 X2 X3 X4 y
0 2 3 4 5 1
2 2 3 4 5 1
3 5 2 2 2 0
5 2 3 4 5 0
6 5 2 2 2 0
我是一名优秀的程序员,十分优秀!