- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
这样做的最佳方法是什么?这是一个 250GB 的文本文件,每行 1 个单词
输入:
123
123
123
456
456
874
875
875
8923
8932
8923
想要的输出:
123
456
874
875
8923
8932
我需要为每个重复的行获取 1 个副本,如果有 2 个相同的行,我不想要,删除两个,只删除 1 个,始终保留 1 个唯一的行。
我现在做什么:
$ cat final.txt | sort | uniq > finalnoduplicates.txt
在屏幕上,这行得通吗?我不知道,因为当我检查输出文件的大小时,它是 0:
123user@instance-1:~$ ls -l
total 243898460
-rw-rw-r-- 1 123user 249751990933 Sep 3 13:59 final.txt
-rw-rw-r-- 1 123user 0 Sep 3 14:26 finalnoduplicates.txt
123user@instance-1:~$
但是当我检查运行此命令的屏幕的 htop
cpu 值时,它是 100%。
我做错了什么吗?
最佳答案
您只需使用 sort
即可完成此操作。
$ sort -u final.txt > finalnoduplicates.txt
您可以进一步简化它,只需让 sort
完成所有操作即可:
$ sort -u final.txt -o finalnoduplicates.txt
最后,由于您的输入文件纯粹只是数字数据,您可以通过 -n
开关告诉 sort
以进一步提高此任务的整体性能:
$ sort -nu final.txt -o finalnoduplicates.txt
sort 的手册页
-n, --numeric-sort
compare according to string numerical value
-u, --unique
with -c, check for strict ordering; without -c, output only the
first of an equal run
-o, --output=FILE
write result to FILE instead of standard output
关于linux - 从 INSANE BIG WORDLIST 中删除重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52152703/
我有这样一个功能: def ladderLength(self, beginWord, endWord, wordList): """ :type beginWord: str
我在 Eclipse-android 中构建一个 c 项目并得到以下错误: 这是一个 ndk 构建错误(与我的代码无关) /Users/eladb/MyWorkspace/android-ndk-r8
有没有办法在 WORDLIST 中使用正则表达式? 我需要实现与 https://issues.apache.org/jira/browse/UIMA-3382 中提到的相同的内容. 或者有什么替代方
我有一个列表 stopWord(每个字符串只有一个单词),我有一个字符串短语(至少 2 个单词)。我想检查我的短语是否包含 Java 中的 stopWord 元素之一。我怎样才能做到这一点? if(!
这样做的最佳方法是什么?这是一个 250GB 的文本文件,每行 1 个单词 输入: 123 123 123 456 456 874 875 875 8923 8932 8923 想要的输出: 123
我正在为 dot file management utility 编写 bash 完成脚本.该工具有一个命令 dots diff [filename],它将显示已安装的点文件和源点文件之间的差异。它还
[root@unknowna08cfd77f899 crunch-3.6]# ls charset.lst COPYING crunch crunch.1 crunch.c Makefile
我是一名优秀的程序员,十分优秀!