gpt4 book ai didi

在hadoop中对输出文本文件进行排序,有没有办法不排序就可以查看输出?或使用不同的排序方法?

转载 作者:可可西里 更新时间:2023-11-01 15:26:57 28 4
gpt4 key购买 nike

所以基本上我使用 mapreduce 来计算我保存在 hadoop 中的文本文件的字数,现在我想查看输出。

目前这是我在网上看到的唯一命令:

bin/hadoop fs -cat output/part-r-00000 | sort -k 2 -n -r | less

到目前为止我只是对这个命令感到困惑,它只是对输出进行排序吗?我可以在不排序的情况下查看输出吗?

此命令是否对字数进行排序,否则按字母顺序显示所有内容?您是否有任何其他方法可以推荐对保存的文本 fie,小说进行排序?

还有我可以不排序只看wordcount的输出文件吗?

最佳答案

Can I view the output without sorting it?

只需-cat即可

bin/hadoop fs -cat output/part-r-00000 | less

或者将输出文件从HDFS拷贝到Local FS上使用

bin/hadoop fs -get output/part-r-00000  /tmp/output

Is this command sorting the wordcount display everything in alphabetical order otherwise?

sort -k 2 -n -r:对第 2 列 (-k 2) 按数字 (-n) 进行反向排序 ( -r) 顺序。

假设第二列包含计数,这会将单词从出现次数最多到最少的顺序排序。至于不同的排序方式,我觉得这是更好的一种。如果您想按字母顺序对内容进行排序,只需使用 sort。引用sort manual .

关于在hadoop中对输出文本文件进行排序,有没有办法不排序就可以查看输出?或使用不同的排序方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43400337/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com