linux - 在 Linux 中 : merge two very big files-6ren

linux - 在 Linux 中 : merge two very big files

转载作者：太空宇宙更新时间：2023-11-04 09:41:16

25

4

我想合并两个文件(一个是空格分隔的，另一个是制表符分隔的)只保留两个文件之间匹配的记录:

文件 1:空格分隔

A B C D E F G H
s e id_234 4 t 5 7 9
r d id_45 6 h 3 9 10
f w id_56 2 y 7 3 0
s f id_67 2 y 10 3 0

文件 2:制表符分隔

I L M N O P
s e 4 u id_67 88
d a 5 d id_33 67
g r 1 o id_45 89

我想匹配文件 1 的字段 3(“C”)和文件 2 的字段 5(“O”)，并像这样合并文件:

文件 3:制表符分隔

I L M N O P A B D E F G H
s e 4 u id_67 88 s f 2 y 10 3 0
g r 1 o id_45 89 r d 6 h 3 9 10

文件 1 中的某些条目未出现在文件 2 中，反之亦然，但我只想保留交集(公共(public) ID)。

我真的不关心顺序。

我不想使用 join，因为这些文件确实很大且未排序，并且 join 之前需要按公共(public)字段排序，这需要很长时间和大量内存。

我尝试过使用 awk 但没有成功

awk > file3 'NR == FNR {
  f2[$3] = $2; next 
}
$5 in f2 {
 print $0, f2[$2]
}' file2 file1

有人可以帮帮我吗？

非常感谢

最佳答案

嗯.. 理想情况下，您会寻求避免 n^2 解决方案，而这正是基于 awk 的方法似乎需要的。对于 file1 中的每条记录，您必须扫描 file2 以查看是否发生。这就是时间的流逝。

我建议为此编写一个 python(或类似)脚本，并为其中一个文件构建 map id-> 文件位置，然后在扫描另一个文件时查询它。这会给你一个 nlogn 运行时，至少对我来说，这看起来是你在这里可以做的最好的事情(使用哈希作为索引会给你带来寻找文件 pos 的昂贵问题)。

事实上，这是执行此操作的 Python 脚本:

f1 = file("file1.txt")

f1_index = {}

# Generate index for file1
fpos = f1.tell()
line = f1.readline()
while line:
    id = line.split()[2]
    f1_index[id] = fpos
    fpos = f1.tell()
    line = f1.readline()

# Now scan file2 and output matches
f2 = file("file2.txt")
line = f2.readline()
while line:
    id = line.split()[4]
    if id in f1_index:
        # Found a matching line, seek to file1 pos and read
        # the line back in
        f1.seek(f1_index[id], 0)
        line2 = f1.readline().split()
        del line2[2] # <- Remove the redundant id_XX
        new_line = "\t".join(line.strip().split() + line2)
        print new_line
    line = f2.readline()

关于linux - 在 Linux 中 : merge two very big files，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21144266/

25

4

0

文章推荐： linux - git repo 问题相关的 puppet

文章推荐： python - 你如何在 Pandas 的每一行中添加一个数组？

文章推荐： linux - 使用 crontab 压缩文件

文章推荐： python - 在 Python 中使用枚举遍历列表时是否应该创建副本

big-o - 谁能解释一下 Big O、Big Omega 和 Big Theta？
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Big Theta Notation - what exactly does big Theta represent
big-o - 如何评估两个函数的 Big-Theta 和 Big-Omega 是否相等？
我有一个作业要证明这些是对还是错: a) 150n^3 + 43n^2 + 50^n + 3 = Ω(n^5) b) n^10 + 30n^8 + 80n^6 = O(n^12) c) 55n + 3
pointers - big.Int 和 *big.Int 之间的区别，以及如何按值传递 big.Int
我可以在 big.Int 上使用像 Text() 这样的方法，它工作正常，但是如果我返回一个 big.Int 然后使用“myfunc().Text()”会抛出一个错误，而如果我返回一个 * big.I
PHP 脚本 : How big is too big?
我正在用 PHP 开发一个网络应用程序，此时核心库的大小为 94kb。虽然我认为我现在是安全的，但多大才算太大？脚本的大小是否会成为一个问题，如果是这样，可以通过将脚本拆分为多个库来改善这一点吗？我
Big-O/Big-Oh 符号问题
我正在复习 Big-Oh 符号，但我在理解这个问题的解决方案时遇到了问题: Is 2n + 10 ≡ O(n)? Can we find c and n0? 2n + 10 = 10 n >= 10/
big-o - 哪个 Big-O 渐近增长得更快
我最近陷入了争论/辩论中，我试图对正确的解决方案做出明确的判断。众所周知， n! grows very quickly ，但究竟有多快，足以“隐藏”可能添加到其中的所有其他常量？让我们假设我有这个
big-o - 如何为我的循环找到 Big-O 符号？
我很难找出这段代码的 Big-O 符号。我需要找到两个 for 循环的符号。 public static int fragment(int n) { int sum = 0; for (in
big-o - 对数基础在 Big O 统治中重要吗？
给定两个函数: f(n)=O(log2n) 和 g(n)=O(log10n) 其中一个是否支配另一个？最佳答案请记住，任何碱基的对数都可以转换为仅以常数变化的公共(public)碱基。因此它们都
big-o - 使用 big-o 进行时间复杂度分析
经过修改，我们得出结论，时间复杂度实际上是O(2^n) 问题是时间复杂度是多少？是 O(2^n) 还是？我相信这是因为 for 循环被认为运行了 n 次。然后嵌套的 while 循环运行 2^n 次
big-o - 什么是嵌套循环的 Big-O，其中内循环的迭代次数由外循环的当前迭代确定？
以下嵌套循环的 Big-O 时间复杂度是多少: for (int i = 0; i < N; i++) { for (int j = i + 1; j < N; j++) {
c - 在 C 中按值传递参数 : how big is too big?
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。上下文:我有机会使用 2×2 矩阵，它位于一个结构体中: typedef struct { double a, b, c,
c - 在 C 中按值传递参数 : how big is too big?
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。上下文:我有机会使用 2×2 矩阵，它位于一个结构体中: typedef struct { double a, b, c,
big-o - Big-O = x 何时被归类为无效率？
假设我们有一个问题，我们使用 X 算法实现了 O(n) 或 O(log n) 或 etc...。 n 的值何时大到我们必须考虑替代实现？让我们看看我是否可以更好地解释自己。 For n=10,000
big-o - 这属于什么 Big-O 表示法？
这属于哪种 Big-O 表示法？我知道 setSearch() 和 removeAt() 是 O(n) 的顺序(假设它们是任意一种)。我知道如果没有 for 循环它肯定是 O(n)，但是我很困惑如何计
big-o - 两个非嵌套循环的 Big Oh 表示法
这是我的问题，我已经设法为 a 部分提出了一个答案，但对于 b 部分，我对 b 部分的答案并不是很自信。在最近的一起法庭案件中，一名法官以蔑视城市为由，下令第一天罚款 2 美元。之后的每一天，直到
algorithm - Big-O/Big-Oh 表示法
我正在尝试计算以下算法的大 O，但我很困惑，需要一些帮助: Algorithm 1. DFS(G,n) Input: G- the graph n- the current node 1
big-ip - 有什么方法可以模拟 F5 BIG-IP 服务器？
我们有一个使用 F5 BIG-IP 服务器进行负载平衡的潜在客户端。在确定我们是否可以将我们的产品与他们的负载均衡器干净地集成时，我开始查看 F5 提供的 API。问题是，如果没有 F5 服务器，我无
react-big-calendar - react-big-calendar 事件的基本设置未显示
我正在尝试使用 react-big-calendar 包。 http://intljusticemission.github.io/react-big-calendar/examples/index.
java - 递归方法的 Big-O 和 Big-Omega
我的任务是尝试找到给定 Java 方法的 big-O 和 big-Omega，但不知道如何找到。我知道 big-O 给出了上限，big-Omega 给出了下限，但是在查看程序(更不用说递归程序)时，我
algorithm - 如何对渐近符号函数集进行操作，即。 Big-O + Big-Omega？
我正在尝试确定以下陈述是对还是错。如果 f(n) ∈ O(n) 且 g(n) ∈ Ω(n)，则 f(n) + g(n) ∈ Θ(n)。我想我理解添加相同的渐近 big-O。 O(n) + O(n)

首页

博学

6Ren·AI

商城

linux - 在 Linux 中 : merge two very big files