python - 从已排序的超大文件(每个 200G)列表中删除重复项的最佳方法？-6ren

python - 从已排序的超大文件(每个 200G)列表中删除重复项的最佳方法？

转载作者：太空宇宙更新时间：2023-11-04 04:47:16

26

4

之前提出的其他问题没有回答我的问题!

我有一系列大文件(200 G)，每个文件都经过排序并包含重复项，如下所示:

 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100| b.ac
 50.21.180.100| b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100| c.ac
 50.21.180.100| c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100| d.ac

预期输出:

50.21.180.100|a.ac
50.21.180.100|b.ac
50.21.180.100|c.ac
50.21.180.100|d.ac

是否有人对删除这些重复项的最佳方法(时间和内存方面)有任何建议？是使用 Linux bash 还是 Python 或者其他语言？

最佳答案

首先删除空格，然后运行uniq:

cat infile.txt | tr -d " " | uniq > outfile.txt

关于python - 从已排序的超大文件(每个 200G)列表中删除重复项的最佳方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27354818/

26

4

0

文章推荐： C - 在数组中搜索彼此接近的相同值？

文章推荐： java - 自定义字体不适用于 java 中的 itextrenderer

文章推荐： python - Elasticsearch 不索引

文章推荐： python - RPC 协议(protocol)比较

g++ - 如何构建 g++
我目前正在尝试让 g++ 工作，并查看 http://gcc.gnu.org/install/build.html ，我似乎找不到它在哪里说如何“执行编译器的 3 阶段 bootstrap ”。我在哪
Python:理解(None for g in g if (yield from g) and False)
James Powell 在他对即将举行的演示文稿的简短描述中说，他自豪地发明了最粗糙的 Python 单行代码之一: (None for g in g if (yield from g) and F
graph-theory - 证明如果 G 的深度优先搜索树等于 G 的广度优先搜索树则 G 是树
请告诉我我的证明是否正确 We have a connected graph, and specific vertex u in V(G). Suppose we compute the dfs tr
powershell - PowerShell “$g = $json | ConvertFrom-Json | Group State”结果与 “$g = $json | ConvertFrom-Json ; $g = $g | Group State ;”不同
下面的test2和test3结果是不同的。我对此感到困惑，因为它看起来像相同的逻辑，并且与linux bash ||逻辑不同。 $data = @( [PSCustomObject]@{St
g-code - 寻找 G Code 语法规范，尝试制作简单的 G Code 解析器
我试图找到一个明确的 G 代码语法规范，而不是单个 G 代码的含义，我无处不在的规范，我的意思是详细的语法规范，目的是编写解析器。我编写解析器没有问题，我只是在寻找语法规范，例如。我知道您不必总是为
css - 为 g 推荐别的东西为 g 推荐别的东西为 g 推荐别的东西
我写了这个 mixin，但它循环了很多时间。你能帮我优化我的代码吗？或者你能建议一些其他的东西来获得想要的结果吗？ dfgdfgsdfgsdf 最佳答案希望这就是您要找的。 $spaces: (4,
g++ - 强制 g++ 为未使用的函数生成代码
默认情况下，g++ 似乎会省略未使用的类内定义方法的代码。示例 from my previous question : struct Foo { void bar() {} void baz(
g++ - 在 g++ 中管道文件内容进行编译
是否可以将文件内容通过管道传送到 g++编译程序？我想这样做是因为我想使用数据库中的文件而不是磁盘上的物理文件。可以通过我制作的 API 轻松检索文件内容。例如，我想做这样的事情: g++ con
g++ - 使用 g++ 进行分析
如何profile c++代码获取每行代码的调用次数和消耗时间，就像profile工具一样在 Matlab 中呢？我尝试使用-fprofile-arcs之类的东西，但它只生成代码覆盖率报告，其中可以
g++ - 如何通过几行代码禁用 g++ 中的所有警告
如何在几行代码上禁用所有警告。可以使用 GCC 诊断功能禁用特定警告，但是否有针对所有警告的标志。我尝试了这个方法，但不起作用 #pragma GCC diagnostic push #pragma
g++ - 修复共享库 g++ 上的断开链接
我有一个链接到 opencv 2.2 的可执行文件。但是，我删除了 opencv 2.2 并安装了 opencv 2.3。问题是，有没有办法在不重新编译整个源代码的情况下将这个可执行文件链接到新的共
g++ - 是否可以在 g++ 中启用数组边界检查？
在编译带有一些标志的以下文件时，是否可以让 g++ 显示错误？ #include using namespace std; int main() { int arr[ 2 ]; cout
haskell - 找到 Haskell 函数 f, g 使得 f g = f 。 G
在学习 Haskell 时，我遇到了一个挑战，要找到两个函数 f 和 g，例如 f g 和 f 。 g 是等价的(并且是总计，因此像 f = undefined 或 f = (.) f 这样的东西不算
algorithm - 如何证明 Θ(g(n)) = O(g(n)) ∩ Ω(g(n))
根据我的理解，Theta 位于 Big O 和 Omega 之间，但我看到了这个声明，但我无法理解为什么交集会出现在这里。我能否对 Θ(g(n)) = O(g(n)) ∩ Ω(g(n)) 获得数学和分
c - 递归函数到迭代，该函数给定 g(n) = 2*g(n-1)+3*g(n-2)
我需要为这个递归函数编写一个迭代函数。 int funcRec(int n){ if(n>1) { return 2*funcRec(n - 1) + 3*funcRec(n
c++ - g++、clang++、使用 libboost 的编译花絮——当 g++7 成功时，g++8 编译失败；
我在 github repository 上有代码示例并在 travis-ci 上创建了一个构建便于复制。最小的、完整的和可验证的例子可能不是最小的，但我相信它足够小它使用 boost.inte
haskell - f, g, h::Kleisli ((->) e) a b <=> f >>> (g &&& h) = (f >>> g) &&& (f >>> h)？
编辑:我们将调用箭头 p纯如果存在这样的函数f即:p = arr f . 我试图更好地掌握 Haskell 中的 Arrows，我想弄清楚什么时候 f >>> (g &&& h) = (f >>> g
Scalaz monad 转换器。将 f1 :A => G[B], f2:B => G[C] 函数应用于 F[G[A]] 对象
我有两个(或更多)函数定义为: val functionM: String => Option[Int] = s => Some(s.length) val functionM2: Int => Op
algorithm - 在渐近符号中，给定 g(n)，O(g(n)) 和 Ω(g(n)) 的并集是所有函数的通用集 U 吗？
好像是的。任何直观或严肃的证据都值得赞赏。最佳答案没有。我认为您的问题等同于:给定函数 f 和 g，f 是 O(g) 或 g 是 O(f) 是否总是正确的？这在 SE Computer Scie
algorithm - 如果 f(n) = o(g(n))，g(n) + f(n)=Θ(g(n)) 吗？
如果我设法证明 f(n) = o(g(n))(小 o)，那么这两个函数的总和 f( n) + g(n) 应该被“更大”的函数 g(n) 紧紧束缚。然而，我在证明这一点时遇到了一些麻烦。最佳答案以

首页

博学

6Ren·AI

商城

python - 从已排序的超大文件(每个 200G)列表中删除重复项的最佳方法？