gpt4 book ai didi

linux - 在 Unix 中打印两个大文件不常见的行的最佳方法

转载 作者:可可西里 更新时间:2023-11-01 11:44:06 24 4
gpt4 key购买 nike

我有两个格式如下的文件。
文件 1: - 它包含 4 列。第一个字段是文本格式的 ID,其余列也是一些文本值。

id1 val12 val13 val14
id2 val22 val23 val24
id3 val32 val33 val34

文件 2 - 在文件二中我只有 ID。

id1
id2

输出

id3 val32 val33 val34

我的问题是:如何从第一个文件中找到其 ID(第一个字段)未出现在第二个文件中的行。这两个文件的大小都非常大,file1 包含 4200 万行,大小为 8GB,file2 包含 3300 万个 ID。两个文件中 ID 的顺序可能不同。

最佳答案

假设这两个文件按id排序,那么类似

join "-t " -j 1 -v 1 file1 file2

应该这样做。

关于linux - 在 Unix 中打印两个大文件不常见的行的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14130733/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com