gpt4 book ai didi

perl - grep 在大文件上表现不佳,有没有替代方法?

转载 作者:行者123 更新时间:2023-12-04 10:07:16 30 4
gpt4 key购买 nike

我有一个差异,它本质上等同于额外的唯一行或在文件中移动的行,因此它们的行号发生了变化。为了确定什么是真正的新增内容,我运行了这个小小的 perl 片段来将“已解决”行与“未解决”行分开:

perl -n -e'
/^\-([^\-].*?)\([^,\(]+,\d+,\d+\).*$/ && do { print STDOUT "$1\n"; next; };
/^\+([^\+].*?)\([^,\(]+,\d+,\d+\).*$/ && do { print STDERR "$1\n"; next; };
' "$delta" 1>resolved 2>unresolved

这实际上非常快并且可以完成工作,将 6000+ 行差异分成两个 3000+ 行文件,删除对行号和统一差异装饰的任何引用。接下来是 grep 命令,它似乎以 100% CPU 运行了近 9 分钟(真实):
grep -v -f resolved unresolved

这实质上是从未解析的文件中删除所有已解析的行。 9 分钟后的输出恰好是 9 行输出 - 唯一的添加或未解析的行。

首先,当我过去使用过 grep 时,它在这方面做得很好,那么为什么在这种情况下它会异常缓慢且 CPU 饥饿?

其次,是否有一种更有效的替代方法可以从一个文件中删除包含在另一个文件中的行?

最佳答案

如果要在两个文件中匹配的行应该完全匹配,则可以使用 sort 和 uniq 来完成这项工作:

cat resolved resolved unresolved | sort | uniq -u

上面管道中唯一的非重复行将是未解析中未解析中的行。请注意,在 cat 命令中指定已解决两次很重要:否则 uniq 还将挑选出该文件独有的行。这假设已解决和 Unresolved 开头没有重复的行。但这很容易处理:只需先对它们进行排序和 uniq
sort resolved | uniq > resolved.uniq
sort unresolved | uniq > unresolved.uniq

另外,我发现如果我尝试匹配固定字符串, fgrep 的速度要快得多,所以这可能是另一种选择。

关于perl - grep 在大文件上表现不佳,有没有替代方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26766331/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com