使用正则表达式找出不包含特定字符串的条目-6ren

使用正则表达式找出不包含特定字符串的条目

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

26

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章使用正则表达式找出不包含特定字符串的条目由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

做日志分析工作的经常需要跟成千上万的日志条目打交道，为了在庞大的数据量中找到特定模式的数据，常常需要编写很多复杂的正则表达式。例如枚举出日志文件中不包含某个特定字符串的条目，找出不以某个特定字符串打头的条目，等等.

使用否定式前瞻。

正则表达式中有前瞻（lookahead）和后顾（lookbehind）的概念，这两个术语非常形象的描述了正则引擎的匹配行为。需要注意一点，正则表达式中的前和后和我们一般理解的前后有点不同。一段文本，我们一般习惯把文本开头的方向称作“前面”，文本末尾方向称为“后面”。但是对于正则表达式引擎来说，因为它是从文本头部向尾部开始解析的（可以通过正则选项控制解析方向），因此对于文本尾部方向，称为“前”，因为这个时候，正则引擎还没走到那块，而对文本头部方向，则称为“后”，因为正则引擎已经走过了那一块地方。如下图所示:

使用正则表达式找出不包含特定字符串的条目

所谓的前瞻就是在正则表达式匹配到某个字符的时候，往“尚未解析过的文本”预先看一下，看是不是符合/不符合匹配模式，而后顾，就是在正则引擎已经匹配过的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我们又称为肯定式匹配和否定式匹配.

现代高级正则表达式引擎一般都支持都支持前瞻，对于后顾支持并不是很广泛，因此我们这里采用否定式前瞻来实现我们的需求.

实现。

测试数据:

。

复制代码代码如下:

 
 2009-07-07 04:38:44 127.0.0.1 get /robots.txt 
 
 2009-07-07 04:38:44 127.0.0.1 get /posts/robotfile.txt 
 
 2009-07-08 04:38:44 127.0.0.1 get /

。

例如上面这几条简单的日志条目，我们想实现两个目标:

1. 把8号的数据过滤掉 2. 把那些不包含robots.txt字符串的条目给找出来（只要url中包含robots.txt的都给过滤掉）.

前瞻的语法是:

(?!匹配模式)我们先来实现第一个目标——匹配不以特定字符串开头的条目.

这里我们因为要排除一段连续的字符串，因此匹配模式非常简单，就是2009-07-08。实现如下:

。

复制代码代码如下:

^(?!2009-07-08).*?$

。

用expresso我们可以看到结果确实过滤掉8号的数据.

接下来，我们来实现第二个目标——排除包含特定字符串的条目.

按照我们上面写法，我照葫芦画瓢了一下:

。

复制代码代码如下:

^.*?(?!robots\.txt).*?$

。

这段正则用大白话描述就是：开头任意字符，然后后面不要跟着robots.txt连续字符串，然后再跟着任意个字符，字符串结尾。运行测试，结果发现:

使用正则表达式找出不包含特定字符串的条目

没有达到我们想要的效果。这是为什么呢？我们给上面的正则表达式加上两个捕获分组调试一下:

。

复制代码代码如下:

^(.*?)(?!robots\.txt)(.*?)$

。

测试结果:

使用正则表达式找出不包含特定字符串的条目

我们看到，第一个分组啥都没有匹配到，而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。实际上，当正则引擎解析到a区域的时候，就已经开始执行b区域的前瞻工作。这个时候发现当a区域为null的时候匹配成功——.*本来就允许匹配空字符，前瞻条件又满足，a区域后面紧跟着的是“2009”字符串，而并不是robots。因此整个匹配过程成功匹配到所有条目.

使用正则表达式找出不包含特定字符串的条目

分析出原因之后我们对上述的正则进行修正，将.*?移入前瞻表达式，如下:

。

复制代码代码如下:

^(?!.*?robots).*$

。

测试结果

使用正则表达式找出不包含特定字符串的条目

完成。

php中用正则实现不包括某个字符串的实现方法。

preg_match("/^((?!abc).)*$/is", $str),

完整代码示例。

。

复制代码代码如下:

 
 $str = "dfadfadf765577abc55fd"; 
 
 $pattern_url = "/^((?!abc).)*$/is"; 
 
 if (preg_match($pattern_url, $str)) 
 
 { 
 
 echo "不含有abc！"; 
 
 } 
 
 else 
 
 { 
 
 echo "含有abc！"; 
 
 }

。

结果为：false，含有abc！。

同时匹配，包含字符串 "abc"，而且不包含字符串 "xyz"的正则表达式:

preg_match("/(abc)[^((?!xyz).)*$]/is", $str),

该方法有效,本人使用方法如下

(?:(?!<\/div>).|\n)*? //匹配不含</div>的一个字符串。

但最终使用中结果是发现,该方法效率极其低下,在处理非常短文字(要匹配该正则式的相同部分的有十几个字,或者最多几十个)时间可以考虑使用,但当用于大篇幅文章解析或多处需要改种匹配时间应不使用,考虑用其他方法替代(如:先解析出要匹配该段正则式的文字,然后验证其中是否存在某段文字),正则表达式对于匹配不含特定字符串的文字段时并不是非常有效的方法. 。

最后此篇关于使用正则表达式找出不包含特定字符串的条目的文章就讲到这里了,如果你想了解更多关于使用正则表达式找出不包含特定字符串的条目的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐：网站如何靠SEO盈利？先把网站包装成专卖店吧

文章推荐：在校大学生利用网络可以做什么?在校大学生利用网络赚钱方式介绍

文章推荐： Google Adsense西联汇款领取方式与流程，亲身实践

文章推荐：常用的正则表达式集锦

jquery - 正/负最大值输入
我有一个加号/减号按钮，希望用户不能选择超过 20 个但不知道如何让它工作。我尝试使用 min="1"max="5 属性，但它们不起作用。这是我的代码和一个 fiddle 链接。https://jsf
r - ggplot2 正/负图无法清晰呈现
我正在尝试复制顶部底部图，如示例 here但它没有正确渲染(紫色系列有 +ve 和 -ve 值，绿色为负值)留下杂乱的人工制品。我也在努力创建一个玩具示例来复制这个问题，所以我希望尽管我缺乏数据，但有
google-maps - 正/负纬度和经度值与基本方向
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 6 年前。社区去年审查了是
c++在添加两个绝对(正)值时得到负值
这个问题在这里已经有了答案: Adding two positive integers gives negative answer.Why? (4 个答案) 关闭 5 年前。我遇到了一个奇怪的问题
Java将负/正字符串数字转换为负/正 double
有谁知道如何将字符串值类型 -4,5 或 5,4 转换为 double -4.5 或 5.4? 最佳答案只需使用 Double.parseDouble(Locale, String); 糟糕，我很困
python - 在数据框中的新列中返回 TextBlob 正、负或中性分类
我正在尝试根据 TextBlob 分类插入一个仅包含“正”或“负”字符串的新数据框列:对于我的 df 的第一行，结果是 ( pos , 0.75, 0.2499999999999997)我想要' 正
VBA 循环根据相邻单元格更改单元格值(正/负)和字体颜色
我对 VBA 非常陌生，无法理解如何在一个循环中完成 2 个任务。我非常感谢您的帮助。我已经能够根据第 3 列中的数据更改第 2 列中的数值，但我不明白如何将负值的字体更改为红色。表格的大小每月都
jquery - 如何发送 "+"符号(加，正)
欢迎，我正在使用 jquery 通过 POST 发送表单。这就是我获得值(value)的方式。 var mytext = $("#textareaid").val(); var dataStrin
c# - 正 System.Double 值的快速下限和上限替代方案
double d = 0; // random decimal value with it's integral part within the range of Int32 and always p
javascript - 使用 Regex 正/负前瞻替换字符？
我有这个字符串: var a='abc123#xyz123'; 我想构建 2 个正则表达式替换函数: 1) 用 '*' 替换所有确实有 future '#'的字符(不包括'#') 所以结果应该是这样的
android - 如何将 DialogFragment 正/负按钮保留在软键盘上方
我正在使用 DialogFragment。当用户从 Gmail 平板电脑应用程序的屏幕与下面示例图片中的编辑文本进行交互时，我希望正面和负面按钮保持在键盘上方。在我的尝试中不起作用，这是我的 Dia
binary - 二进制补码； 0FFFFh 正，0FFFFh 负？
从组装艺术一书中，我复制了这句话: In the two’s complement system, the H.O. bit of a number is a sign bit. If the H.O
c++ - 基于数值(正、负、零)实现条件表达式的最佳方式
是否有更好更优雅的方法来实现下面的简单代码(diffYear、A 和 B 是数字): diffYear = yearA - yearB; if (diffYear == 0) { A = B
boolean true - 正 1 还是负 1？
我正在设计一种语言，并尝试确定 true 应该是 0x01 还是 0xFF。显然，所有非零值都将转换为 true，但我正在尝试确定确切的内部表示。每种选择的优点和缺点是什么？最佳答案没关系，只要
android - alertdialog 正/负按钮与全屏对话框 fragment 中的父级不匹配
在我的 dialogfragment 类的 OnCreateDialog 中，我正在这样做: AlertDialog.Builder builder = new AlertDialog.Builder
c++ - 正 lambda : '+[]{}' - What sorcery is this?
这个问题在这里已经有了答案: Resolving ambiguous overload on function pointer and std::function for a lambda usin
ios - 正 NSDecimalNumber 返回意外的 64 位整数值
我偶然发现了一个奇怪的 NSDecimalNumber 行为:对于某些值，调用 integerValue、longValue、longLongValue 等，返回意想不到的值(value)。示例: l
c++ - 正 lambda : '+[]{}' - What sorcery is this?
这个问题在这里已经有了答案: Resolving ambiguous overload on function pointer and std::function for a lambda using
regex - 匹配负/正 float/int 正则表达式 - 这是邪恶的吗？
我有这个正则表达式来测试用户输入是否有效: value.length === 0 || value === '-' || (!isNaN(parseFloat(value)) && /^-?\d+\.
matlab - 来自 matlab "fitgmdist"函数的不合理 [正] 对数似然值
我想用高斯混合模型拟合数据集，数据集包含大约 120k 个样本，每个样本有大约 130 个维度。当我使用 matlab 执行此操作时，我运行脚本(簇号为 1000): gm = fitgmdist(d

首页

博学

6Ren·AI

商城

使用正则表达式找出不包含特定字符串的条目