gpt4 book ai didi

Python Pandas : remove duplicate in csv file with no headings

转载 作者:行者123 更新时间:2023-12-01 03:01:08 26 4
gpt4 key购买 nike

很抱歉这个愚蠢的问题,我是 python 和 pandas 的新手。

假设我有一个 csv 文件,其中每一行都有一些数据,例如:

data1, data2, data3, data4

没有标题,只有数据,如果满足以下条件,我需要删除此类文件中的一些行

(row1.data3 and row1.data4) == (row2.data3 and row2.data4) 

整行被删除。

我怎样才能实现这一目标?

我确实尝试使用remove_duplicates,但没有标题我不知道该怎么做。

干杯

最佳答案

假设您碰巧有一个没有标题的 df:

df = pd.read_csv("./try.csv", header=None)
df
# The first row is integers inserted instead of missing column names
0 1 2
0 1 1 1
1 1 1 1
2 2 1 3
3 2 1 3
4 3 2 3
5 3 3 3

然后,您可以对列的子集drop_duplicates:

df.drop_duplicates([0])
0 1 2
0 1 1 1
2 2 1 3
4 3 2 3

df.drop_duplicates([0,1])

0 1 2
0 1 1 1
2 2 1 3
4 3 2 3
5 3 3 3

不要忘记将结果分配给新变量或添加inplace=True

关于Python Pandas : remove duplicate in csv file with no headings,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43826594/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com