gpt4 book ai didi

linux - 如何索引文本文件以缩短 grep 时间

转载 作者:IT王子 更新时间:2023-10-29 00:44:25 26 4
gpt4 key购买 nike

我有大量文本文件需要定期进行 grep 处理。

大约有 230,000 个文件,总计约 15GB 的数据。

我已阅读以下主题:

我将使用 grepping 的机器是 Intel Core i3(即双核),所以我无法在很大程度上并行化。该机器正在运行 Ubuntu,我更愿意通过命令行完成所有操作。

有什么方法可以索引或标记文本文件的内容以改进搜索,而不是每次都运行沼泽标准的 grep?

最佳答案

要在大量文件中搜索文本模式,qgrep使用索引。请参阅有关原因和方式的文章:https://zeux.io/2019/04/20/qgrep-internals

或者,也许尝试现代多线程 grep 工具,例如新的 ugrepag aka silver searcher(注意:GitHub 上的 ag 错误列表显示最新的 ag 2.2.0 可能在多线程下运行较慢,我认为这将在未来的更新中修复)。

关于linux - 如何索引文本文件以缩短 grep 时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31302685/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com