gpt4 book ai didi

python - 从 csv [标题 + 内容] 中删除重复行

转载 作者:太空宇宙 更新时间:2023-11-03 14:44:26 25 4
gpt4 key购买 nike

我有一个数据集,大小超过 100mb,文件数量也很多。这些文件有超过 20 列和大约超过 100 万行。

数据的主要问题是:

  1. 标题重复 -- 标题行重复
  2. 完整重复的行,即该特定行中所有列的数据都是重复的。

不用担心哪一列或多少列..只需要保留第一个出现的位置,然后删除其余的。

我确实找到了太多示例,但我正在寻找的是输入和输出都需要是同一文件。寻求帮助的唯一原因是,我想编辑同一个文件。

示例输入:此处 https://www.dropbox.com/s/sl7y5zm0ppqfjn6/sample_duplicate.csv?dl=0

感谢您的帮助,提前致谢..

最佳答案

如果重复 header 的数量已知且恒定,则跳过这些行:

csv = pd.read_csv('https://www.dropbox.com/s/sl7y5zm0ppqfjn6/sample_duplicate.csv?dl=1',skiprows=4)

或者,根据所有列删除所有重复项的好处是,执行以下操作:

csv = pd.read_csv('https://www.dropbox.com/s/sl7y5zm0ppqfjn6/sample_duplicate.csv?dl=1')
csv = csv.drop_duplicates()

现在数据中仍然有标题行,只需跳过它:csv = csv.iloc[1:]

您当然可以使用 pandas.DataFrame.to_csv 覆盖输入文件

关于python - 从 csv [标题 + 内容] 中删除重复行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46359793/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com