gpt4 book ai didi

bash - 文档中唯一单词的数量

转载 作者:行者123 更新时间:2023-11-29 09:25:41 26 4
gpt4 key购买 nike

我有一个非常大的 txt 文件 (500GiB),我想获取其唯一单词的数量。我试过 this , 但它似乎很慢,因为它确实排序:

grep -o -E '\w+' temp | sort -u -f | wc -l

有更好的方法吗?

最佳答案

awk 助您一臂之力!

$ awk -v RS=" " '{a[$0]++} END{for(k in a) sum++; print sum}' file

更新:

使用 tr 进行预处理并让 awk 经济地进行计数可能更好。您可能想用空格或换行分隔单词。

例如:

$ tr ':;,?!\"' ' ' < file | tr -s ' ' '\n' | awk '!a[$0]++{c++} END{print c}'

关于bash - 文档中唯一单词的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34377704/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com