linux - grep内部工作原理-6ren

linux - grep内部工作原理

转载作者：塔克拉玛干更新时间：2023-11-02 23:37:50

25

4

我想知道 grep 内部是如何工作的。具体来说，我想知道找到第一个匹配项是否比找到所有匹配项快得多？例如，第一个匹配项出现在文件从开始处开始的 10% 点，所有匹配项都分布在整个文件中。然后我认为只找到第一个匹配将使 grep 处理的文件内容比查找所有匹配少得多(在这种情况下 grep 必须遍历整个文件，相比之下 10%文件在较早的情况下)。我想知道我的假设是否正确，因为这种可能的改进可以极大地改进我的处理工作。谢谢。

最佳答案

如果您使用 grep 打印文件中所有匹配的行，那么它当然必须处理整个文件。

另一方面，如果您使用 grep -q 在至少找到一个匹配项的情况下生成成功终止状态，那么 grep 当然可以在第一场比赛。如果在文件的早期找到第一个匹配项，则可以节省时间，因为 grep 可以在该点立即退出并返回成功终止状态。如果文件中没有匹配项(最坏的情况)，则它必须处理整个文件。在这种情况下它必须处理整个文件，因为它怎么能确定没有匹配项呢？如果匹配只出现在最后一行，但 grep 忽略了那一行，那么它会错误地报告没有匹配。

Grep 将模式编译为正则表达式。正则表达式的结构对性能有影响。一些正则表达式比其他的表现更好。根据所使用的算法，一些看起来很小的正则表达式可以生成具有大量状态的状态机。

索引是一种加快搜索速度的技术。如果您经常在文本语料库中查找特定单词，那么如果您有一个单词索引可以更快地指示它们在语料库中的位置。索引的组织方式使得可以非常快速地检索找到单词的位置列表，而无需扫描文本。建立索引需要时间(需要对整个正文进行全文扫描)，而且当语料发生变化时，还得重新建立索引。

这是加速计算机程序源代码标识符搜索的工具的基础，例如 GNU Id-Utils。当然，索引是 Google 等万维网搜索引擎的基础。

关于linux - grep内部工作原理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24193089/

25

4

0

文章推荐： linux - 我想将输出通过管道传输到 bash 中的多个文件

文章推荐： c++ - 来自私有(private) CRTP 基地的回调

文章推荐： c++ - 在 'this' 指针上使用 placement new 是否安全

文章推荐： linux - Init.d 脚本不启动或停止只打印帮助信息

Docker通信全视角：原理、实践与技术洞察
本文全面深入地探讨了Docker容器通信技术，从基础概念、网络模型、核心组件到实战应用。详细介绍了不同网络模式及其实现，提供了容器通信的技术细节和实用案例，旨在为专业从业者提供深入的技术洞见和实
Dubbo快速上手 -- 带你了解Dubbo使用、原理
📒博客首页：崇尚学技术的科班人 🍣今天给大家带来的文章是《Dubbo快速上手 -- 带你了解Dubbo使用、原理》🍣 🍣希望各位小伙伴们能够耐心的读完这篇文章🍣 🙏博主也在学习阶段，如若发
npm install 原理
一、写在前面我们经常使用npm install ，但是你是否思考过它内部的原理是什么？ 1、执行npm install 它背后帮助我们完成了什么操作？ 2、我们会发现还有一个成为package-lo
一篇带你了解 Base64 原理
Base64 Base64 是什么?是将字节流转换成可打印字符、将可打印字符转换为字节流的一种算法。Base64 使用 64 个可打印字符来表示转换后的数据。准确的来说，Base64 不算
详细解读tornado协程(coroutine)原理
目录协程定义生成器和yield语义 Future类 IOLoop类 coroutine函数装饰器总结 tornado中的
golang常用手册之切片(Slice)原理
切片，这是一个在go语言中引入的新的理念。它有一些特征如下：对数组抽象数组长度不固定可追加元素切片容量可增大容量大小成片增加我们先把上面的理念整理在这
100 行代码透彻解析 RPC 原理
文章来源：https://sourl.cn/HpZHvy 引言本文主要论述的是“RPC 实现原理”，那么首先明确一个问题什么是 RPC 呢？RPC 是 Remote Procedure Call
原理：WebMvcConfigurer 与 WebMvcConfigurationSupport避坑指南
源码地址（包含所有与springmvc相关的，静态文件路径设置，request请求入参接受，返回值处理converter设置等等）： spring-framework/WebMvcConfigurat
java - 关于简单java类中的依赖注入(inject)原理
请通过简单的java类向我展示一个依赖注入(inject)原理的小例子虽然我已经了解了spring，但是如果我需要用简单的java类术语来解释它，那么你能通过一个简单的例子向我展示一下吗？提前致谢。
简单聊聊内网穿透（背景-概念-原理-工具对比）
1、背景我们平常使用手机和电脑上网，需要访问公网上的网络资源，如逛淘宝和刷视频，那么手机和电脑是怎么知道去哪里去拿到这个网络资源来下载到本地的呢？就比如我去食堂拿吃的，我需要
来，今天飞哥带你理解 Iptables 原理！
大家好，我是飞哥! 现在 iptables 这个工具的应用似乎是越来越广了。不仅仅是在传统的防火墙、NAT 等功能出现，在今天流行的的 Docker、Kubernets、Istio 项目中也经
CesiumJS 2022^ 原理[5] - 着色器相关的封装设计
本篇涉及到的所有接口在公开文档中均无，需要下载 GitHub 上的源码，自己创建私有类的文档。 npm run generateDocumentation -- --private yarn gene
solid-principles - SOLID 原理，以及类内的硬编码配置
我最近在很多代码中注意到人们将硬编码的配置(如端口号等)值放在类/方法的深处，使其难以找到，也无法配置。这是否违反了 SOLID 原则？如果不是，我是否可以向我的团队成员引用另一个“原则”来说明为什
mvvm - 命令和 MVVM 原理 - RelayCommands
我是 C#、WPF 和 MVVM 模式的新手。很抱歉这篇很长的帖子，我试图设定我所有的理解点(或不理解点)。在研究了很多关于 WPF 提供的命令机制和 MVVM 模式的文本之后，我在弄清楚如何使用这
javascript - Angularjs $http.post 原理
可比较的 jQuery 函数 $.post("/example/handler", {foo: 1, bar: 2}); 将创建一个带有 post 参数 foo=1&bar=2 的请求。鉴于 $htt
Django "lazy query execution"原理
如果Django不使用“延迟查询执行”原则，主要问题是什么？ q = Entry.objects.filter(headline__startswith="What") q = q.filter(
c# - .NET 中的 BODMAS 原理
我今天发现.NET框架在做计算时遵循BODMAS操作顺序。即计算按以下顺序进行: 括号订单部门乘法添加减法但是我四处搜索并找不到任何文档确认 .NET 绝对遵循此原则，是否有此类文档？如
c++ - 库方便使用 "design by contract"原理
已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。关闭
CesiumJS 2022^ 原理[4] - 最复杂的地球皮肤影像与地形的渲染与下载过程
API 回顾在创建 Viewer 时可以直接指定影像供给器（ImageryProvider），官方提供了一个非常简单的例子，即离屏例子（搜 offline）： new Cesium.Viewer(
compiler-construction - self 学习编译器的最佳方法:原理，技术和工具
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be

首页

博学

6Ren·AI

商城

linux - grep内部工作原理