gpt4 book ai didi

python - 从已排序的超大文件(每个 200G)列表中删除重复项的最佳方法?

转载 作者:太空宇宙 更新时间:2023-11-04 04:47:16 26 4
gpt4 key购买 nike

  • 之前提出的其他问题没有回答我的问题!

我有一系列大文件(200 G),每个文件都经过排序并包含重复项,如下所示:

 50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100|a.ac
50.21.180.100| b.ac
50.21.180.100| b.ac
50.21.180.100|b.ac
50.21.180.100|b.ac
50.21.180.100|b.ac
50.21.180.100| c.ac
50.21.180.100| c.ac
50.21.180.100|c.ac
50.21.180.100|c.ac
50.21.180.100|c.ac
50.21.180.100|c.ac
50.21.180.100| d.ac

预期输出:

50.21.180.100|a.ac
50.21.180.100|b.ac
50.21.180.100|c.ac
50.21.180.100|d.ac

是否有人对删除这些重复项的最佳方法(时间和内存方面)有任何建议?是使用 Linux bash 还是 Python 或者其他语言?

最佳答案

首先删除空格,然后运行uniq:

cat infile.txt | tr -d " " | uniq > outfile.txt

关于python - 从已排序的超大文件(每个 200G)列表中删除重复项的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27354818/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com