gpt4 book ai didi

python - 根据重新排列的重复项对 pandas 数据框进行切片(或如何删除重新排列的重复项)

转载 作者:行者123 更新时间:2023-12-01 06:45:03 25 4
gpt4 key购买 nike

我有一个具有以下格式的大数据框

   col1    col2    val1    val2
[0]A B 0.8 0.1
[1]B A 0.8 0.1
[2]A C 0.3 0.9
[3]A D 0.2 0.8
[4]D A 0.2 0.8

如您所见,有些行是重复的,仅 col1col2颠倒了。例如,行1与行 0 重复,并行 4与行 3 重复。您能否根据 col1 的匹配删除重复项:col2等于 col2 的值:col1

最佳答案

您可以通过 np.sort 对两列进行排序并分配回来,然后使用 DataFrame.drop_duplicates指定一些列:

df[['col1','col2']] = np.sort(df[['col1','col2']], axis=1)
df1 = df.drop_duplicates(['col1','col2'])
print (df1)
col1 col2 val1 val2
0 A B 0.8 0.1
2 A C 0.3 0.9
3 A D 0.2 0.8

删除所有列的重复项:

df2 = df.drop_duplicates()
print (df2)
col1 col2 val1 val2
0 A B 0.8 0.1
2 A C 0.3 0.9
3 A D 0.2 0.8

关于python - 根据重新排列的重复项对 pandas 数据框进行切片(或如何删除重新排列的重复项),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59268698/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com