gpt4 book ai didi

linux - 为什么 "uniq"将相同的词算作不同的?

转载 作者:IT王子 更新时间:2023-10-29 00:38:40 24 4
gpt4 key购买 nike

我想计算文件中单词的出现频率,其中单词是一行一行的。该文件非常大,所以这可能是问题所在(在此示例中它计为 300k 行)。

我执行这个命令:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

问题是它给了我一个小错误:它认为相同的词是不同的。

例如,第一个条目是:

306 continua 
278 apertura
211 eventi
189 murah
182 giochi
167 giochi

如您所见,giochi 重复了两次。

在文件的底部,情况变得更糟,看起来像这样:

  1 win 
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind

所有单词。

我做错了什么?

最佳答案

首先尝试排序:

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

关于linux - 为什么 "uniq"将相同的词算作不同的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11860452/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com