gpt4 book ai didi

bash - 在 csv 文件中查找重复项的脚本

转载 作者:太空狗 更新时间:2023-10-29 19:36:14 27 4
gpt4 key购买 nike

我有一个包含 50,000 条记录的 40 MB csv 文件。这是一个巨大的产品 list 。每行有近 20 个字段。 [商品编号、UPC、描述等]

我怎么能,

a) 查找并打印重复的行。 [这个文件是一个很大的附加文件,所以我需要删除文件中包含的多个标题,所以我想先知道重复的确切行。]

b) 根据列查找并打印重复行。 [查看一个 UPC 是否分配给多个产品]

我需要在服务器上运行命令或脚本,并且我安装了 Perl 和 Python。甚至 bash 脚本或命令也适用于我。

我不需要保留行的顺序。等等

我试过了,

sort largefile.csv | uniq -d

获取重复项,但我没有得到预期的答案。

理想情况下,我想要 bash 脚本或命令,但如果有人有任何其他建议,那也很好。

谢谢


参见:Remove duplicate rows from a large file in Python在 Stack Overflow 上结束

最佳答案

尝试以下操作:

# Sort before using the uniq command
sort largefile.csv | sort | uniq -d

uniq 是一个非常基本的命令,只报告彼此相邻的唯一性/重复项。

关于bash - 在 csv 文件中查找重复项的脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4095523/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com