c# - RegEx 字表现 :\w vs [a-zA-Z0-9

c# - RegEx 字表现 :\w vs [a-zA-Z0-9_]

转载作者：行者123 更新时间：2023-11-30 13:43:27

25

4

我想知道 \w 传递的字符列表，是不是 [a-zA-Z0-9_]或者它可能涵盖更多的字符？

我问这个问题，因为基于 this , \d 与[0-9] 不同，是less efficient .

\w vs [a-zA-Z0-9_]: which one might be faster in large scale?

最佳答案

[ 这个答案是特定于 Perl 的。其中的信息可能不适用于 PCRE 或其他标记语言使用的引擎。 ]

/\w/aa(实际等效于 /[a-zA-Z0-9_]/)通常更快，但并非总是如此。也就是说，差异是如此之小(每次检查不到 1 纳秒)，因此不必担心。换句话说，调用 sub 或启动正则表达式引擎需要的时间要长得多。

下面将对此进行详细介绍。

首先，默认情况下，\w 与 [a-zA-Z0-9_] 不同。 \w 匹配每个字母、数字、标记和连接符标点 Unicode 代码点。有 119,821 个这样的代码!^[1] 确定哪个非等效代码最快是没有意义的。

但是，将 \w 与 /aa 一起使用可确保 \w 仅匹配 [a-zA-Z0-9_] 。这就是我们将要用于基准测试的内容。 (实际上，我们将同时使用两者。)

(请注意，每个测试执行 1000 万次检查，因此 10.0/s 实际上意味着每秒 1000 万次检查。)

ASCII-only positive match
               Rate [a-zA-Z0-9_]      (?u:\w)     (?aa:\w)
[a-zA-Z0-9_] 39.1/s           --         -26%         -36%
(?u:\w)      52.9/s          35%           --         -13%
(?aa:\w)     60.9/s          56%          15%           --

当在 ASCII 字符中找到匹配项时，ASCII-only \w 和 Unicode \w 都击败了显式类。

/\w/aa 在我的机器上是 ( 1/39.1 - 1/60.9 )/10,000,000 = 0.000,000,000,916 秒

ASCII-only negative match
               Rate      (?u:\w)     (?aa:\w) [a-zA-Z0-9_]
(?u:\w)      27.2/s           --          -0%         -12%
(?aa:\w)     27.2/s           0%           --         -12%
[a-zA-Z0-9_] 31.1/s          14%          14%           --

当无法在 ASCII 字符中找到匹配项时，显式类胜过 ASCII-only \w。

/[a-zA-Z0-9_]/ 在我的机器上是 ( 1/27.2 - 1/31.1 )/10,000,000 = 0.000,000,000,461 秒

Non-ASCII positive match
               Rate      (?u:\w) [a-zA-Z0-9_]     (?aa:\w)
(?u:\w)      2.97/s           --        -100%        -100%
[a-zA-Z0-9_] 3349/s      112641%           --          -9%
(?aa:\w)     3664/s      123268%           9%           --

哇哦。该测试似乎正在进行一些优化。也就是说，多次运行测试会产生极其一致的结果。 (其他测试也是如此。)

在非 ASCII 字符中找到匹配项时，ASCII-only \w 胜过显式类。

/\w/aa 在我的机器上是 ( 1/3349 - 1/3664 )/10,000,000 = 0.000,000,000,002,57 s

Non-ASCII negative match
               Rate      (?u:\w) [a-zA-Z0-9_]     (?aa:\w)
(?u:\w)      2.66/s           --          -9%         -71%
[a-zA-Z0-9_] 2.91/s          10%           --         -68%
(?aa:\w)     9.09/s         242%         212%           --

当无法在非 ASCII 字符中找到匹配项时，ASCII-only \w 胜过显式类。

/[a-zA-Z0-9_]/ 在我的机器上是 ( 1/2.91 - 1/9.09 )/10,000,000 = 0.000,000,002,34 秒

结论

我很惊讶 /\w/aa 和 /[a-zA-Z0-9_]/ 之间有任何区别。
在某些情况下，/\w/aa 更快；在其他情况下，/[a-zA-Z0-9_]/。
/\w/aa 和 /[a-zA-Z0-9_]/ 之间的差异非常小(小于 1 纳秒)。
差别很小，您不必担心。
即使 /\w/aa 和 /\w/u 之间的差异也很小，尽管后者匹配的字符比前者多 4 个数量级。

use strict;
use warnings;
use feature qw( say );

use Benchmarks qw( cmpthese );

my %pos_tests = (
   '(?u:\\w)'     => '/^\\w*\\z/u',
   '(?aa:\\w)'    => '/^\\w*\\z/aa',
   '[a-zA-Z0-9_]' => '/^[a-zA-Z0-9_]*\\z/',
);

my %neg_tests = (
   '(?u:\\w)'     => '/\\w/u',
   '(?aa:\\w)'    => '/\\w/aa',
   '[a-zA-Z0-9_]' => '/[a-zA-Z0-9_]/',
);

$_ = sprintf( 'use strict; use warnings; our $s; for (1..1000) { $s =~ %s }', $_)
   for
      values(%pos_tests),
      values(%neg_tests);

local our $s;

say "ASCII-only positive match";
$s = "J" x 10_000;
cmpthese(-3, \%pos_tests);

say "";

say "ASCII-only negative match";
$s = "!" x 10_000;
cmpthese(-3, \%neg_tests);

say "";

say "Non-ASCII positive match";
$s = "\N{U+0100}" x 10_000;
cmpthese(-3, \%pos_tests);

say "";

say "Non-ASCII negative match";
$s = "\N{U+2660}" x 10_000;
cmpthese(-3, \%neg_tests);

Unicode 版本 11。

关于c# - RegEx 字表现 :\w vs [a-zA-Z0-9_]，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55699393/

25

4

0

文章推荐： c# - 检查字典中是否有给定的字符串

文章推荐： c# - 使用 Visual Studio 2019 构建现有 sln 失败

文章推荐： c# - 如何使用 IHttpClientFactory 刷新 token

文章推荐： c# - 在 C# 中传递枚举数组

pthreads - sleep 表现
我正在用 C++ 开发一个程序，我必须实现一个 cron。由于不同的原因，这个 cron 应该每小时和每 24 小时执行一次。我的第一个想法是创建一个独立的 pthread 并在每次 1h 内休眠。这
javascript - 具有不同纹理的多个体素。表现
我需要向同一场景几何添加多个体素(立方体等于)，但每个体素具有不同的纹理。我的体素超过 500 个，导致性能出现严重错误。这是我的代码: texture = crearTextura(voxel.
mysql - 每个用户保存相似记录的单个表还是单独的表？ (表现？？)
对于 MySQL 数据库，我有 2 个场景，我不确定该选择哪一个，并且对于一些表我也遇到了同样的困境。我正在制作一个仅供成员(member)访问的网络应用程序。每个成员都有自己的交易、费用和“列表”
css - 我应该使用哪个？ (表现)
我想知道一个简单的事情: 当设置一个被所有 child 继承的样式时，是否建议最具体？ Structure: html > body > parent_content > wrapper > p 我想
c++ - 矩阵的乘法。表现
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
java - JPA中的显式和隐式JOIN有什么区别？ (表现)
这些天我正在阅读有关 JPA 的内容。我了解到可以在 JPQL 中使用 explicit 或 implicit JOIN。显式加入 em.createQuery(“SELECT b.title, p
c# - 字符串连接与字符串生成器。表现
我有一种情况需要连接几个字符串以形成一个类的 id。基本上，我只是在列表中循环以获取对象的 ToString 值，然后将它们连接起来。 foreach (MyObject o in myList)
javascript - Canvas fillStyle 表现
我正在检查我的游戏在拖尾效果下的性能会降低多少。但我注意到每秒的操作次数更多了。这怎么可能？这是怎么回事... context.fillRect(0, 0, 500, 500); // cl
php - PHP 中的全局变量或传递变量？ (表现)
如果我可以选择使用全局变量或传递变量，哪个选项在速度和内存使用方面更好？ // global variable function func(){ global $var; echo $var;
mysql select 按主键排序。表现
我有一个类似这样的表“tbl”:ID bigint(20) - 主键，自增字段1字段2字段3 该表有 60 万多行。查询:SELECT * from tbl ORDER by ID LIMIT 60
algorithm - 旅行商 (TSP) 表现
谁能告诉我，我如何比较 TSP 最优和启发式算法？我已经实现了 TSP，但不知道如何比较它们。事实上，我怎样才能找到 TSP 的最优成本？有什么方法或猜测吗？谢谢最佳答案用众所周知的基准实例检查
ios - NSTextStorage 里面有长文本。表现
我有一个 NSTextStorage里面有长文本(比如一本书有 500 页，当前字体在设备上超过 9000 页)。我以这种方式为 textcontainer 分发此文本: let textStorag
c# - 按邮政编码查找产品 |半正弦算法 |表现
我有一个根据邮政编码搜索项目的应用程序。在搜索邮政编码时，我返回了来自该城市/社区的所有产品(通过解析邮政编码完成)。我现在需要根据与原始邮政编码的距离对这些产品进行分类。我将纬度/经度存储在数
performance - MPI Alltoallv或更好的个人Send and Recv？ (表现)
我有许多进程(大约100到1000个进程)，每个进程都必须向其他进程(例如大约10个)发送一些数据。 (通常，但不一定总是这样，如果A发送给B，B也发送给A。)每个进程都知道必须从哪个进程接收多少数据
performance - 带有 shouldComponentUpdate 的组件与无状态组件。表现？
我知道无状态组件使用起来更舒服(在特定场景下)，但是既然你不能使用shouldComponentUpdate，这是否意味着组件将在每次props更改时重新渲染？我的问题是，使用带有智能 shouldC
javascript - CSS/JS 即时缩小？ (表现)
我正在研究 Google Pagespeed 的加速页面加载时间指南列表。其中之一是缩小 CSS 和 JS 文件。由于这些文件经常更改，我正在考虑使用 PHP 脚本根据请求(来自浏览器)即时缩小此脚
MySQL 选择每个运动员的最佳(和最老)表现、类别
我正在尝试从下表构建 SQL 查询(示例): Example of table with name "performances" 这是带有运动表现的表格。我想从这个表中选择每个学科和一组一个或多个类别
c++ - 表现。寻找子串。 substr 与查找
假设我们有一个字符串 var "sA"，我想检查字符串 "123"是否在 sA 的末尾。什么更好，为什么: if(sA.length() > 2) sA.substr(sA.length()-3)
c# - Linq group by property 表现
关于受这篇文章启发的可参数化查询 LINQ group by property as a parameter我获得了一个很好的参数化查询，但在性能上有一个缺点。 public static void
c++ - 运算符(operator)表现|与运营商+
| 和| 之间有什么主要区别吗？和 + 从长远来看会影响代码的性能吗？或者都是 O(1)？我正在使用的代码是这样的: uint64_t dostuff(uint64_t a,uint64_t b){

首页

博学

6Ren·AI

商城

c# - RegEx 字表现 :\w vs [a-zA-Z0-9_]