linux - 从 INSANE BIG WORDLIST 中删除重复项-6ren

linux - 从 INSANE BIG WORDLIST 中删除重复项

转载作者：太空宇宙更新时间：2023-11-04 12:01:44

26

4

这样做的最佳方法是什么？这是一个 250GB 的文本文件，每行 1 个单词

输入:

想要的输出:

我需要为每个重复的行获取 1 个副本，如果有 2 个相同的行，我不想要，删除两个，只删除 1 个，始终保留 1 个唯一的行。

我现在做什么:

$ cat final.txt | sort | uniq > finalnoduplicates.txt

在屏幕上，这行得通吗？我不知道，因为当我检查输出文件的大小时，它是 0:

123user@instance-1:~$ ls -l
total 243898460
-rw-rw-r-- 1 123user 249751990933 Sep  3 13:59 final.txt
-rw-rw-r-- 1 123user            0 Sep  3 14:26 finalnoduplicates.txt
123user@instance-1:~$

但是当我检查运行此命令的屏幕的 htop cpu 值时，它是 100%。

我做错了什么吗？

最佳答案

您只需使用 sort 即可完成此操作。

$ sort -u final.txt > finalnoduplicates.txt

您可以进一步简化它，只需让 sort 完成所有操作即可:

$ sort -u final.txt -o finalnoduplicates.txt

最后，由于您的输入文件纯粹只是数字数据，您可以通过 -n 开关告诉 sort 以进一步提高此任务的整体性能:

$ sort -nu final.txt -o finalnoduplicates.txt

sort 的手册页

   -n, --numeric-sort
          compare according to string numerical value

   -u, --unique
          with -c, check for strict ordering; without -c, output only the
          first of an equal run

   -o, --output=FILE
          write result to FILE instead of standard output

关于linux - 从 INSANE BIG WORDLIST 中删除重复项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52152703/

26

4

0

文章推荐： linux - 通过结束进程来停止 bash 脚本的最佳方法

文章推荐： php - 如何定义表格单元格高度 (CSS/HTML)

文章推荐： html - 背景图像未使用 css 显示

c++ - XML解析后变量设置函数指针的QHash : insane?
我正在以 XML 格式解析和存储从服务器获取的数据。该应用程序是一个瘦客户端，它非常频繁地请求这样的服务器端数据。一些变量将是触发更多网络调用的 uris。数据的形式是: value
php - 工作中的PHP编码标准: Insane,还是我？
我更喜欢编码标准是合乎逻辑的。这是我为什么不遵循以下一组标准的观点。我需要知道以下两件事之一:(1)为什么我错了，或者(2)如何说服我的团队更改它们。 camelCase:函数，类名，方法和变量必须
java - 原始类型导致的代码重复 : How to avoid insanity?
在我的一个 Java 项目中，由于 Java 处理 (not) 的方式，代码重复困扰着我。原语。必须手动将相同的更改复制到四个不同的位置(int、long、float、double)再次，对于第三次，
c# - 不可变设计 : Dealing with Constructor Insanity
出于各种原因，我想开始在设计中使用更多不可变类型。目前，我正在处理一个现有类如下的项目: public class IssueRecord { // The real class has mo
apache-kafka - 卡夫卡 : Is our number of partitions insane?
我们有一个 3 主机的 Kafka 集群。我们有 136 个主题，每个主题有 100 个分区，复制因子为 3。这使得我们的集群中有 13,600 个分区。这是我们主题的合理配置吗？最佳答案太多了
google-chrome - 这个 INSANE 空间字符是什么？？？ (谷歌浏览器)
这绝对让我感到震惊，!&&%&$ 疯了......它无视我能想到的一切。这个角色就在这里... " " 在这些引号之间......打开谷歌浏览器并检查。你会看到一个 ……正常吧？现在右
linux - 从 INSANE BIG WORDLIST 中删除重复项
这样做的最佳方法是什么？这是一个 250GB 的文本文件，每行 1 个单词输入: 123 123 123 456 456 874 875 875 8923 8932 8923 想要的输出: 123
c++ - Objective C(++) Insanity——对单个浮点变量的简单赋值导致另一个变量中的 {{{CRAZY}}} 值
memberA 定义在 ClassA 的头部。 memberB 定义在 ClassB 的头部。 B类是A类的子类在 ClassB 的实例中，通过简单赋值设置 memberA: memberA = 0
Javascript : Insane boolean test with '!' operator
这个问题在这里已经有了答案: Check legal characters by regular expression but with unexpected result (2 个答案) 关闭 7
c++ - "SSE 4.2 insanity"提案文件中的 "if consteval"是什么意思？
我正在阅读关于 if consteval (§3.2) 的 C++ 论文，并看到一段显示 constexpr strlen 实现的代码: constexpr size_t strlen(char co
prolog - 使用 CLP 解决 PROLOG 中的 Instant Insanity
This is the game 我已经成功地生成了随机混合的 4 种颜色和 4 个立方体的问题，并遵循链接中建议的配色方案。因此，目标是使用 clpfd 生成问题的可能解决方案。主要原则是基本的，
c++ - 由 float : completely insane output 组成的 union 体
#include union NumericType { float value; int intvalue; }Values; int main() { Values.va
cocoa - Mac OS X Window Server 与 X11 : the insane task
献给所有喜欢低级 Window Server(CoreGraphicsPrivate.h 等)、Mac 上的 X11、SIMBL 和其他疯狂东西的人:) Mac 上有一个简单的 X11 模拟应用程序(
python - 游戏 : a fast way to find what is on screen before displaying it with insane amount of objects
我在一个 pygame 项目上工作，其中程序保存了大量的对象(100 000 + 对象)。该脚本基于每组对象之间的大距离。为简单起见，该计划是一张无边界的 map ，上面有一个在上面移动的相机。对象密
ruby-on-rails - 未定义方法 `gsub' 为 nil :NilClass driving me insane in ruby on rails
我不知道发生了什么，但我正在试验 GSUB 然后决定我不想再使用它所以将我的 link_to 参数改回: 现在我不断收到这个错误:nil:NilClass 的未定义方法 `gsub' 当我从我的表演
haskell - Haskell 中的 Goto : Can anyone explain this seemingly insane effect of continuation monad usage?
来自this线程(Control.Monad.Cont fun，2005)，Tomasz Zielonka 引入了一个函数(Thomas Jäger 以清晰而漂亮的方式进行了评论)。 Tomasz 获

首页

博学

6Ren·AI

商城

linux - 从 INSANE BIG WORDLIST 中删除重复项