java - Java正则表达式中\w和\b的Unicode等价物？-6ren

java - Java正则表达式中\w和\b的Unicode等价物？

转载作者：行者123 更新时间：2023-12-01 19:34:11

许多现代正则表达式实现解释了 \w字符类简写为“任何字母、数字或连接标点符号”(通常:下划线)。这样，像 \w+ 这样的正则表达式匹配像 hello 这样的词, élève , GOÄ_432或 gefräßig .

不幸的是，Java 没有。在 Java 中，\w仅限于 [A-Za-z0-9_] .这使得匹配上面提到的词变得困难，还有其他问题。

看来 \b单词分隔符在不应该匹配的地方匹配。

什么是类似 .NET、Unicode 感知的正确等价物 \w或 \b在 java ？哪些其他快捷方式需要“重写”以使其能够识别 Unicode？

最佳答案

源代码

我在下面讨论的重写函数的源代码 is available here .

Java 7 中的更新

Sun 更新 Pattern JDK7 的类有一个了不起的新标志，UNICODE_CHARACTER_CLASS ，这使得一切正常。它可用作嵌入式 (?U)用于模式内部，因此您可以将其与 String 一起使用类的包装器也是如此。它还修正了各种其他属性的定义。它现在在 RL1.2 中跟踪 Unicode 标准。和 RL1.2a来自 UTS#18:Unicode 正则表达式。这是一个令人兴奋和戏剧性的改进，开发团队的这一重要努力值得表扬。

Java 的正则表达式 Unicode 问题

Java 正则表达式的问题在于 Perl 1.0 字符类转义——意思是 \w , \b , \s , \d和它们的补充——在 Java 中没有扩展到与 Unicode 一起使用。其中，只有\b享有某些扩展语义，但这些都没有映射到 \w ，也不至 Unicode identifiers ，也不至 Unicode line-break properties .

此外，Java 中的 POSIX 属性可以通过以下方式访问:

POSIX syntax    Java syntax

[[:Lower:]]     \p{Lower}
[[:Upper:]]     \p{Upper}
[[:ASCII:]]     \p{ASCII}
[[:Alpha:]]     \p{Alpha}
[[:Digit:]]     \p{Digit}
[[:Alnum:]]     \p{Alnum}
[[:Punct:]]     \p{Punct}
[[:Graph:]]     \p{Graph}
[[:Print:]]     \p{Print}
[[:Blank:]]     \p{Blank}
[[:Cntrl:]]     \p{Cntrl}
[[:XDigit:]]    \p{XDigit}
[[:Space:]]     \p{Space}

这真是一团糟，因为这意味着诸如 Alpha 之类的事情。 , Lower , 和 Space做不是在 Java 中映射到 Unicode Alphabetic , Lowercase , 或 Whitespace属性。这是非常烦人的。 Java 的 Unicode 属性支持是 严格意义上的千禧年 ，我的意思是它不支持过去十年中出现的任何 Unicode 属性。

不能正确地谈论空白是非常烦人的。考虑下表。对于每个代码点，都有一个 J-results 列
Java 和 Perl 或任何其他基于 PCRE 的正则表达式引擎的 P-results 列:

             Regex    001A    0085    00A0    2029
                      J  P    J  P    J  P    J  P
                \s    1  1    0  1    0  1    0  1
               \pZ    0  0    0  0    1  1    1  1
            \p{Zs}    0  0    0  0    1  1    0  0
         \p{Space}    1  1    0  1    0  1    0  1
         \p{Blank}    0  0    0  0    0  1    0  0
    \p{Whitespace}    -  1    -  1    -  1    -  1
\p{javaWhitespace}    1  -    0  -    0  -    1  -
 \p{javaSpaceChar}    0  -    0  -    1  -    1  -

看到了吗？

根据 Unicode，几乎所有这些 Java 空格结果都是 ̲w̲r̲o̲n̲g̲ 。这是一个 真是大问题。 Java 只是一团糟，根据现有实践和 Unicode，给出了“错误”的答案。此外，Java 甚至不能让您访问真正的 Unicode 属性!事实上，Java 不支持任何与 Unicode 空格对应的属性。

所有这些问题的解决方案，以及更多

为了解决这个和许多其他相关问题，昨天我写了一个 Java 函数来重写一个模式字符串，重写这 14 个字符类转义:

\w \W \s \S \v \V \h \H \d \D \b \B \X \R

通过用可预测和一致的方式实际匹配 Unicode 的东西替换它们。它只是来自单个黑客 session 的 alpha 原型(prototype)，但它是完整的功能。

简而言之，我的代码将这 14 个重写如下:

\s => [\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))
\B => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)

需要考虑的一些事情...

用于其 \X定义什么Unicode now refers to作为传统的字形集群，而不是扩展的字形集群，因为后者更复杂。 Perl 本身现在使用更高级的版本，但旧版本在最常见的情况下仍然完全可用。 编辑:见底部附录。

怎么办\d取决于您的意图，但默认是 Uniode 定义。我可以看到人们并不总是想要 \p{Nd} ，但有时 [0-9]或 \pN .

两个边界定义，\b和 \B , 是专门为使用 \w 而编写的定义。

那个\w定义过于宽泛，因为它捕获了括号内的字母，而不仅仅是圈出的字母。 Unicode Other_Alphabetic属性在 JDK7 之前不可用，所以这是你能做的最好的事情。

探索边界

自从 Larry Wall 首次创造 \b 以来，边界一直是一个问题。和 \B 1987 年在 Perl 1.0 中讨论它们的语法。理解如何的关键 \b和 \B这两项工作都是为了消除关于它们的两个普遍存在的神话:

他们是只看为 \w单词字符，从不对于非单词字符。

他们不会专门寻找字符串的边缘。

一个 \b边界是指:

    IF does follow word
        THEN doesn't precede word
    ELSIF doesn't follow word
        THEN does precede word

这些都非常直接地定义为:

后面的词是 (?<=\w) .

前面的词是 (?=\w) .

不跟字是(?<!\w) .

不先于词是 (?!\w) .

因此，由于 IF-THEN被编码为 and合编 AB在正则表达式中，一个 or是 X|Y ，并且因为 and优先级高于 or ，就是 AB|CD .所以每 \b这意味着边界可以安全地替换为:

    (?:(?<=\w)(?!\w)|(?<!\w)(?=\w))

与 \w以适当的方式定义。

(你可能会觉得 A 和 C 组件是对立的很奇怪。在一个完美的世界里，你应该可以写出 AB|D ，但有一段时间我在 Unicode 属性中寻找互斥矛盾——我想我已经解决了，但为了以防万一，我在边界中留下了双重条件。此外，如果您以后有额外的想法，这使它更具可扩展性。)

对于 \B无边界，逻辑是:

    IF does follow word
        THEN does precede word
    ELSIF doesn't follow word
        THEN doesn't precede word

允许 \B 的所有实例替换为:

    (?:(?<=\w)(?=\w)|(?<!\w)(?!\w))

真的是这样 \b和 \B表现。它们的等效模式是

\b使用 ((IF)THEN|ELSE)构造是 (?(?<=\w)(?!\w)|(?=\w))

\B使用 ((IF)THEN|ELSE)构造是 (?(?=\w)(?<=\w)|(?<!\w))

但是只有 AB|CD 的版本很好，特别是如果你的正则表达式语言中缺少条件模式——比如 Java。 ☹

我已经使用所有三个等效定义和一个测试套件验证了边界的行为，该测试套件每次运行检查 110,385,408 个匹配项，并且我已经根据以下内容在十几种不同的数据配置上运行:

     0 ..     7F    the ASCII range
    80 ..     FF    the non-ASCII Latin1 range
   100 ..   FFFF    the non-Latin1 BMP (Basic Multilingual Plane) range
 10000 .. 10FFFF    the non-BMP portion of Unicode (the "astral" planes)

然而，人们往往想要一种不同的边界。他们想要一些空白和字符串边缘感知的东西:

左边缘为 (?:(?<=^)|(?<=\s))

右边缘为 (?=$|\s)

用 Java 修复 Java

我在 my other answer 中发布的代码提供了这一点以及许多其他便利。这包括自然语言单词、破折号、连字符和撇号的定义，以及更多。

它还允许您在逻辑代码点中指定 Unicode 字符，而不是在愚蠢的 UTF-16 代理中。 很难过分强调这有多重要! 这仅适用于字符串扩展。

对于使 Java 正则表达式中的字符类最终在 Unicode 上工作并正常工作的正则表达式字符类替换，获取 the full source from here . 当然，你可以随心所欲。如果您对其进行修复，我很乐意听到它，但您不必这样做。它很短。主要正则表达式重写函数的内容很简单:

switch (code_point) {

    case 'b':  newstr.append(boundary);
               break; /* switch */
    case 'B':  newstr.append(not_boundary);
               break; /* switch */

    case 'd':  newstr.append(digits_charclass);
               break; /* switch */
    case 'D':  newstr.append(not_digits_charclass);
               break; /* switch */

    case 'h':  newstr.append(horizontal_whitespace_charclass);
               break; /* switch */
    case 'H':  newstr.append(not_horizontal_whitespace_charclass);
               break; /* switch */

    case 'v':  newstr.append(vertical_whitespace_charclass);
               break; /* switch */
    case 'V':  newstr.append(not_vertical_whitespace_charclass);
               break; /* switch */

    case 'R':  newstr.append(linebreak);
               break; /* switch */

    case 's':  newstr.append(whitespace_charclass);
               break; /* switch */
    case 'S':  newstr.append(not_whitespace_charclass);
               break; /* switch */

    case 'w':  newstr.append(identifier_charclass);
               break; /* switch */
    case 'W':  newstr.append(not_identifier_charclass);
               break; /* switch */

    case 'X':  newstr.append(legacy_grapheme_cluster);
               break; /* switch */

    default:   newstr.append('\\');
               newstr.append(Character.toChars(code_point));
               break; /* switch */

}
saw_backslash = false;

无论如何，该代码只是一个 alpha 版本，是我在周末修改的内容。它不会一直这样。

对于测试版，我打算:

将重复的代码折叠在一起

提供关于非转义字符串转义与增加正则表达式转义的更清晰的界面

在 \d 中提供一些灵活性扩展，也许还有 \b

提供方便的方法来处理和调用 Pattern.compile 或 String.matches 或诸如此类的东西

对于生产版本，它应该有 javadoc 和一个 JUnit 测试套件。我可能包括我的 gigatester，但它不是作为 JUnit 测试编写的。

附录

我有好消息和坏消息。

好消息是我现在有一个非常接近扩展字素簇的近似值，用于改进 \X .

坏消息 ☺ 是这种模式是:

(?:(?:\u000D\u000A)|(?:[\u0E40\u0E41\u0E42\u0E43\u0E44\u0EC0\u0EC1\u0EC2\u0EC3\u0EC4\uAAB5\uAAB6\uAAB9\uAABB\uAABC]*(?:[\u1100-\u115F\uA960-\uA97C]+|([\u1100-\u115F\uA960-\uA97C]*((?:[[\u1160-\u11A2\uD7B0-\uD7C6][\uAC00\uAC1C\uAC38]][\u1160-\u11A2\uD7B0-\uD7C6]*|[\uAC01\uAC02\uAC03\uAC04])[\u11A8-\u11F9\uD7CB-\uD7FB]*))|[\u11A8-\u11F9\uD7CB-\uD7FB]+|[^[\p{Zl}\p{Zp}\p{Cc}\p{Cf}&&[^\u000D\u000A\u200C\u200D]]\u000D\u000A])[[\p{Mn}\p{Me}\u200C\u200D\u0488\u0489\u20DD\u20DE\u20DF\u20E0\u20E2\u20E3\u20E4\uA670\uA671\uA672\uFF9E\uFF9F][\p{Mc}\u0E30\u0E32\u0E33\u0E45\u0EB0\u0EB2\u0EB3]]*)|(?s:.))

在 Java 中你可以这样写:

String extended_grapheme_cluster = "(?:(?:\\u000D\\u000A)|(?:[\\u0E40\\u0E41\\u0E42\\u0E43\\u0E44\\u0EC0\\u0EC1\\u0EC2\\u0EC3\\u0EC4\\uAAB5\\uAAB6\\uAAB9\\uAABB\\uAABC]*(?:[\\u1100-\\u115F\\uA960-\\uA97C]+|([\\u1100-\\u115F\\uA960-\\uA97C]*((?:[[\\u1160-\\u11A2\\uD7B0-\\uD7C6][\\uAC00\\uAC1C\\uAC38]][\\u1160-\\u11A2\\uD7B0-\\uD7C6]*|[\\uAC01\\uAC02\\uAC03\\uAC04])[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]*))|[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]+|[^[\\p{Zl}\\p{Zp}\\p{Cc}\\p{Cf}&&[^\\u000D\\u000A\\u200C\\u200D]]\\u000D\\u000A])[[\\p{Mn}\\p{Me}\\u200C\\u200D\\u0488\\u0489\\u20DD\\u20DE\\u20DF\\u20E0\\u20E2\\u20E3\\u20E4\\uA670\\uA671\\uA672\\uFF9E\\uFF9F][\\p{Mc}\\u0E30\\u0E32\\u0E33\\u0E45\\u0EB0\\u0EB2\\u0EB3]]*)|(?s:.))";

¡Tschüß!

关于java - Java正则表达式中\w和\b的Unicode等价物？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4304928/

文章推荐： java - 扫描仪在使用 next() 或 nextFoo() 后跳过 nextLine()？

文章推荐： java - 旧版本的 spring boot 无法在 Java 11 上启动

文章推荐： java - Java中的逆变和继承有什么区别？

unicode - 何时使用 Unicode(除了非 unicode!)
我还没有找到太多关于何时使用 Unicode 的(简明)信息。我知道很多人说最佳实践是始终使用 Unicode。但 Unicode 字符串确实有更多的内存占用。我是否正确地说，必须仅在以下情况下使用
unicode - 如何从 Unicode 网站获取完整的 Unicode 表情符号列表
我正在构建一个需要使用表情符号的应用程序，特别是生成大量随机表情符号序列。这需要有一个大列表可供选择。而不是采取方法 detailed here通过循环硬编码十六进制范围，我决定采用不同的方法并从 t
unicode - 组合任意 Unicode 符号或具有负宽度的 Unicode 字符
早在 ZX Spectrum 的早期，就有一种方法可以将一个字形打印在另一个字形之上，从而在 OVER 1 指令的帮助下创建复合字形。我想知道是否有 Unicode 方法可以在现代计算机上执行相同的
unicode - 如何将 Unicode 代码点转换为 Unicode 字符串？
我有一个表示 Unicode 代码点的字符串，例如 "272d"。如何将其转换为 "✭"？ Elixir 当然理解 Unicode: iex> > "✭" iex> "x{272d}" "✭" 但我需
unicode - 在源文件中使用 Unicode 并且缺少 unicode 符号
自从我了解到 clang 能够编译用 Unicode 编写的 c++ 源文件后，我在编写与数学相关的代码时就开始大量使用它。比较 uₙ₊₁ᵖ = A*uₙ + B*uₙ₋₁; uₙ₊₁ᶜ = π *
unicode - Unicode 拉丁下标字母列表
感谢jmcnamara我发现了一种在 xlsxwriter 图表中使用 Unicode 字符的好方法:xlsxwrter: rich text format in chart title 我需要一个所
unicode - Unicode 中可能的组合字符序列
有些字符不包含在 Unicode 中(即带重音的西里尔字母)，但可以使用组合序列创建。据我了解，可能的组合字符序列是在布局引擎和/或使用的字体中定义的。我对吗？那么，如何得到所有可能的组合序列呢？最
unicode - Unicode 的换行规则是否要求最后一个字符是强制换行符？
我正在尝试使用 libunibreak ( https://github.com/adah1972/libunibreak ) 来标记某些给定 unicode 文本中可能的换行符。 Libunibre
unicode - Unicode 字母字符列表
我需要具有属性 Alphabetic 的 Unicode 字符范围列表如 http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic 中所定
unicode - Unicode 中视觉相同的字符
我想为 Unicode 中的特定字符找到视觉上相同的字符。我知道如何找到一个字符的规范或兼容性分解；但他们没有给我我想要的。我想找到视觉上相同(不相似)的字符，它们唯一的区别可能是它们的大小。例
unicode - 规范化 unicode
假设我有包含此字符串的 Apache Solr 索引文档: Klüft skräms inför 我希望能够使用此关键字通过搜索找到它(注意“u”-“ü”): kluft 有没有办法做到这一点？最
unicode - Unicode 是否有定义的最大代码点数？
我已经阅读了很多文章以了解 Unicode 代码点的最大数量，但我没有找到最终答案。我知道 Unicode 代码点已最小化，以使所有 UTF-8 UTF-16 和 UTF-32 编码都能够处理相同数
unicode - 通过浏览器支持 Unicode
我正在使用 CSS Buttons With Icons But No Images . 图标是使用 unicode 值生成的。在这方面，我遇到了一些浏览器不支持某些 unicode 值的问题。因此，
unicode - Unicode 文本的罗马化
我正在寻找一种方法将 Unicode 字母字符从任何语言音译为带重音的拉丁字母。目的是让外国人深入了解以任何非拉丁文字书写的姓名和单词的发音。例子: 希腊语:Romanize("Αλφαβητικό
unicode - Unicode 标准中的颜色？
Unicode 6.0 添加了几个带有描述的字符，表明这些字符应该以特定颜色呈现: 红苹果 U+1F34E 青苹果 U+1F34F 蓝心U+1F499 绿心U+1F49A 黄心U+1F49B 紫心U+
unicode - Unicode 字符如何映射到字体中的字形？
我想知道，Unicode 中的每个字符都有一个代码点；字体中字符的类似术语是什么？当解码文件需要映射到字体(或字体，通过一些现代字体替换技术)时，我从来没有理解过程的一部分。例如，当文本编辑器从其
unicode - Unicode 可打印字符的范围是多少？
谁能告诉我 Unicode 可打印字符的范围是多少？ [例如。 Ascii 可打印字符范围为\u0020 -\u007f] 最佳答案参见，http://en.wikipedia.org/wiki/U
unicode - 为什么我们所做的一切都不是 Unicode？
鉴于Unicode有been around for 18 years ，为什么还有不支持 Unicode 的应用程序？甚至我对某些操作系统和 Unicode 的体验至少可以说是痛苦的。正如乔尔·斯波尔
unicode - Unicode 可以映射多少个字符？
我要求计算 Unicode 中所有可能的有效组合的数量并附上解释。我知道一个 char 可以编码为 1、2、3 或 4 个字节。我也不明白为什么连续字节有限制，即使该字符的起始字节清除了它应该有多长。
unicode - Unicode 中汉字的完整范围是多少？
Unicode 为中文字符分配了 U+4E00..U+9FFF。这是全套的一部分，但不是全部。最佳答案最终列表可以在 Unicode Character Code Charts 找到;在页面中搜索

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Java正则表达式中\w和\b的Unicode等价物？