gpt4 book ai didi

linux - 在纯文本文件中查找和列出重复的单词

转载 作者:太空狗 更新时间:2023-10-29 11:45:49 26 4
gpt4 key购买 nike

我试图理解一个相当大的文件。我使用 du -ah 命令生成了包含大量文件的整个目录结构的列表。结果基本上以纯文本格式列出特定文件夹下的所有文件夹以及文件夹内的后续文件。

例如:

4.0G    ./REEL_02/SCANS/200113/001/Promise Pegasus/BMB 10/RED EPIC DATA/R3D/18-09-12/CAM B/B119_0918NO/B119_0918NO.RDM/B119_C004_0918XJ.RDC/B119_C004_0918XJ_003.R3D
3.1G ./REEL_02/SCANS/200113/001/Promise Pegasus/BMB 10/RED EPIC DATA/R3D/18-09-12/CAM B/B119_0918NO/B119_0918NO.RDM/B119_C004_0918XJ.RDC/B119_C004_0918XJ_004.R3D
15G ./REEL_02/SCANS/200113/001/Promise Pegasus/BMB 10/RED EPIC DATA/R3D/18-09-12/CAM B/B119_0918NO/B119_0918NO.RDM/B119_C004_0918XJ.RDC

是否有任何我可以运行的命令或我可以使用的实用程序可以帮助我确定是否有多个相同文件名的记录(通常是每行的最后 16 个字符 + 扩展名) 如果存在此类重复条目,则将整个路径(整行)写到另一个文本文件中,这样我就可以使用脚本或其他方式从我的 NAS 中找到并移出重复文件。

请告诉我,因为当纯文本文件本身是 5.2Mb 时,这样做的压力非常大 :)

最佳答案

/上拆分每一行,得到最后一项(cut做不到,所以将每一行还原并取第一条),然后排序并运行uniq-d 显示重复项。

rev FILE | cut -f1 -d/ | rev | sort | uniq -d

关于linux - 在纯文本文件中查找和列出重复的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16645262/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com