- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我想合并两个文件(一个是空格分隔的,另一个是制表符分隔的)只保留两个文件之间匹配的记录:
文件 1:空格分隔
A B C D E F G H
s e id_234 4 t 5 7 9
r d id_45 6 h 3 9 10
f w id_56 2 y 7 3 0
s f id_67 2 y 10 3 0
文件 2:制表符分隔
I L M N O P
s e 4 u id_67 88
d a 5 d id_33 67
g r 1 o id_45 89
我想匹配文件 1 的字段 3(“C”)和文件 2 的字段 5(“O”),并像这样合并文件:
文件 3:制表符分隔
I L M N O P A B D E F G H
s e 4 u id_67 88 s f 2 y 10 3 0
g r 1 o id_45 89 r d 6 h 3 9 10
文件 1 中的某些条目未出现在文件 2 中,反之亦然,但我只想保留交集(公共(public) ID)。
我真的不关心顺序。
我不想使用 join,因为这些文件确实很大且未排序,并且 join 之前需要按公共(public)字段排序,这需要很长时间和大量内存。
我尝试过使用 awk 但没有成功
awk > file3 'NR == FNR {
f2[$3] = $2; next
}
$5 in f2 {
print $0, f2[$2]
}' file2 file1
有人可以帮帮我吗?
非常感谢
最佳答案
嗯.. 理想情况下,您会寻求避免 n^2 解决方案,而这正是基于 awk 的方法似乎需要的。对于 file1 中的每条记录,您必须扫描 file2 以查看是否发生。这就是时间的流逝。
我建议为此编写一个 python(或类似)脚本,并为其中一个文件构建 map id-> 文件位置,然后在扫描另一个文件时查询它。这会给你一个 nlogn 运行时,至少对我来说,这看起来是你在这里可以做的最好的事情(使用哈希作为索引会给你带来寻找文件 pos 的昂贵问题)。
事实上,这是执行此操作的 Python 脚本:
f1 = file("file1.txt")
f1_index = {}
# Generate index for file1
fpos = f1.tell()
line = f1.readline()
while line:
id = line.split()[2]
f1_index[id] = fpos
fpos = f1.tell()
line = f1.readline()
# Now scan file2 and output matches
f2 = file("file2.txt")
line = f2.readline()
while line:
id = line.split()[4]
if id in f1_index:
# Found a matching line, seek to file1 pos and read
# the line back in
f1.seek(f1_index[id], 0)
line2 = f1.readline().split()
del line2[2] # <- Remove the redundant id_XX
new_line = "\t".join(line.strip().split() + line2)
print new_line
line = f2.readline()
关于linux - 在 Linux 中 : merge two very big files,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21144266/
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Big Theta Notation - what exactly does big Theta represent
我有一个作业要证明这些是对还是错: a) 150n^3 + 43n^2 + 50^n + 3 = Ω(n^5) b) n^10 + 30n^8 + 80n^6 = O(n^12) c) 55n + 3
我可以在 big.Int 上使用像 Text() 这样的方法,它工作正常,但是如果我返回一个 big.Int 然后使用“myfunc().Text()”会抛出一个错误,而如果我返回一个 * big.I
我正在用 PHP 开发一个网络应用程序,此时核心库的大小为 94kb。虽然我认为我现在是安全的,但多大才算太大?脚本的大小是否会成为一个问题,如果是这样,可以通过将脚本拆分为多个库来改善这一点吗? 我
我正在复习 Big-Oh 符号,但我在理解这个问题的解决方案时遇到了问题: Is 2n + 10 ≡ O(n)? Can we find c and n0? 2n + 10 = 10 n >= 10/
我最近陷入了争论/辩论中,我试图对正确的解决方案做出明确的判断。 众所周知, n! grows very quickly ,但究竟有多快,足以“隐藏”可能添加到其中的所有其他常量? 让我们假设我有这个
我很难找出这段代码的 Big-O 符号。 我需要找到两个 for 循环的符号。 public static int fragment(int n) { int sum = 0; for (in
给定两个函数: f(n)=O(log2n) 和 g(n)=O(log10n) 其中一个是否支配另一个? 最佳答案 请记住,任何碱基的对数都可以转换为仅以常数变化的公共(public)碱基。 因此它们都
经过修改,我们得出结论,时间复杂度实际上是O(2^n) 问题是时间复杂度是多少?是 O(2^n) 还是? 我相信这是因为 for 循环被认为运行了 n 次。然后嵌套的 while 循环运行 2^n 次
以下嵌套循环的 Big-O 时间复杂度是多少: for (int i = 0; i < N; i++) { for (int j = i + 1; j < N; j++) {
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。 上下文:我有机会使用 2×2 矩阵,它位于一个结构体中: typedef struct { double a, b, c,
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。 上下文:我有机会使用 2×2 矩阵,它位于一个结构体中: typedef struct { double a, b, c,
假设我们有一个问题,我们使用 X 算法实现了 O(n) 或 O(log n) 或 etc...。 n 的值何时大到我们必须考虑替代实现?让我们看看我是否可以更好地解释自己。 For n=10,000
这属于哪种 Big-O 表示法?我知道 setSearch() 和 removeAt() 是 O(n) 的顺序(假设它们是任意一种)。我知道如果没有 for 循环它肯定是 O(n),但是我很困惑如何计
这是我的问题,我已经设法为 a 部分提出了一个答案,但对于 b 部分,我对 b 部分的答案并不是很自信。 在最近的一起法庭案件中,一名法官以蔑视城市为由,下令第一天罚款 2 美元。 之后的每一天,直到
我正在尝试计算以下算法的大 O,但我很困惑,需要一些帮助: Algorithm 1. DFS(G,n) Input: G- the graph n- the current node 1
我们有一个使用 F5 BIG-IP 服务器进行负载平衡的潜在客户端。在确定我们是否可以将我们的产品与他们的负载均衡器干净地集成时,我开始查看 F5 提供的 API。问题是,如果没有 F5 服务器,我无
我正在尝试使用 react-big-calendar 包。 http://intljusticemission.github.io/react-big-calendar/examples/index.
我的任务是尝试找到给定 Java 方法的 big-O 和 big-Omega,但不知道如何找到。我知道 big-O 给出了上限,big-Omega 给出了下限,但是在查看程序(更不用说递归程序)时,我
我正在尝试确定以下陈述是对还是错。 如果 f(n) ∈ O(n) 且 g(n) ∈ Ω(n),则 f(n) + g(n) ∈ Θ(n)。 我想我理解添加相同的渐近 big-O。 O(n) + O(n)
我是一名优秀的程序员,十分优秀!