gpt4 book ai didi

linux - 如何使用 linux 命令从纯文本文件中删除重复的单词

转载 作者:IT王子 更新时间:2023-10-29 00:18:05 25 4
gpt4 key购买 nike

我有一个包含单词的纯文本文件,单词之间用逗号分隔,例如:

word1, word2, word3, word2, word4, word5, word 3, word6, word7, word3

我想删除重复项并成为:

word1, word2, word3, word4, word5, word6, word7

有什么想法吗?我想,egrep 可以帮助我,但我不确定如何使用它......

最佳答案

假设每行一个单词,并且文件已经排序:

uniq filename

如果文件未排序:

sort filename | uniq

如果它们不是每行一个,并且您不介意它们是每行一个:

tr -s [:space:] \\n < filename | sort | uniq

不过,这并没有删除标点符号,所以也许你想要:

tr -s [:space:][:punct:] \\n < filename | sort | uniq

但这会从带连字符的单词中删除连字符。 “man tr”以获得更多选项。

关于linux - 如何使用 linux 命令从纯文本文件中删除重复的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/952268/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com