php - PHP 中的正则表达式 : Matching to the UTS18 standard-6ren

php - PHP 中的正则表达式 : Matching to the UTS18 standard

转载作者：塔克拉玛干更新时间：2023-11-03 05:45:23

27

4

Unicode 通用语言环境数据存储库 (CLDR) 包含有关语言和字符之间关系的大量信息。例如，您可以通过查看 misc.exemplarCharacters 来确定特定语言中使用了哪些字符。图表。这些图表的原始数据存储为 XML 文件，示例字符根据 Unicode 正则表达式标准存储为正则表达式 UTS18 .

以下是 UTS18 正则表达式的一些示例:

1. [a à b c ç d e é è f g h i í ï j k l ŀ m n o ó ò p q r s t u ú ü v w x y z]
2. [অ আ ই ঈ উ ঊ ঋ এ ঐ ও ঔ ং \u0981 ঃ ক খ গ ঘ ঙ চ ছ জ ঝ ঞ ট ঠ ড {ড\u09BC}ড় ঢ {ঢ\u09BC}ঢ় ণ ত থ দ ধ ন প ফ ব ভ ম য {য\u09BC} ৰ ল ৱ শ ষ স হ া ি ী \u09C1 \u09C2 \u09C3 ে ৈ ো ৌ \u09CD]
3. [a á b ɓ c d ɗ e é ɛ {ɛ\u0301} f g i í j k l m n {ny} ŋ o ó ɔ {ɔ\u0301} p r s t u ú ū w y]

我正在使用 PHP 和 SimpleXML 来解析 XML 数据并隔离这些正则表达式字符串。现在，我想将单个多字节字符与这些正则表达式相匹配。我目前正在使用 mb_ereg_match函数，它会产生以下一个或多个警告(取决于正则表达式):

mbregex compile err: premature end of char-class in ...
mbregex compile err: empty range in char class in ...
mbregex compile err: empty char-class in ...

关于为什么这不起作用的任何想法？

最佳答案

按照 Sergey 的建议，我在调用 mb_ereg_match() 函数之前添加了以下几行:

mb_internal_encoding('UTF-8');
mb_regex_encoding('UTF-8');

此添加消除了上面列出的两个警告。我只剩下以下警告:

mbregex compile err: empty char-class in ...

经过一些额外的调试，我发现少数 CLDR XML 文件实际上包含空的正则表达式字符串。例如，在 kn.xml 中，我们有以下行:

<exemplarCharacters type="auxiliary">[]</exemplarCharacters>

我认为这些行是错误的，因为预期的行为是简单地完全省略该行(整个 CLDR 中的大多数情况都是如此)。

因此，我能够通过简单地丢弃空的正则表达式字符串来消除最后一个错误。

希望这对其他人有帮助!

关于php - PHP 中的正则表达式 : Matching to the UTS18 standard，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11094122/

27

4

0

文章推荐： php - 全局登录(许多站点)

文章推荐： ruby-on-rails - 根据日期重复记录 - Rails

文章推荐： c# - 如何根据文件大小将文件平均分配给用户？

javascript - 是 incorrect? 我可以在同一元素的 v-bind 中使用来自 v-for 的匹配项吗？
我正在尝试为匹配中的每个匹配呈现一些 HTML，但是，我不太确定实际上是正确的。更具体地说，我不确定我是否可以使用 v-bind:match='match'在与循环相同的元素上 v-for='ma
match - Any.match 是做什么的？
它具有看似简单的代码: method match(Any:U: |) { self.Str; nqp::getlexcaller('$/') = Nil } 但是，这是它的行为: (^3).matc
python - 替代 `match = re.match(); if match: ...` 成语？
如果您想检查某项是否与正则表达式匹配，如果是，请打印第一组，您就可以了.. import re match = re.match("(\d+)g", "123g") if match is not N
mysql - MATCH (field1, field2) 和 MATCH(field1) OR MATCH(field2) 之间的区别
以下两个查询的结果有差异吗？ SELECT * FROM table1, table2 WHERE ( MATCH(table1.row1) AGAINST('searchstring' IN
vim 语法 : match only when between other matches
我正在尝试为我的日志文件创建一个语法文件。它们采用以下格式: [time] LEVEL filepath:line - message 我的语法文件如下所示: :syn region logTime
ruby - 为什么 `Symbol#match` 的行为与 `String#match` 和 `Regexp#match` 不同？
String#match 和 Regexp#match 在匹配成功时返回一个 MatchData: "".match(//) # => # //.match("") # => # //.match(:
swift - 实例方法 'match(match:player:didChangeState:)'几乎匹配协议(protocol) 'match(_:player:didChange:)'的可选要求 'GKMatchDelegate'
我的代码中有这个函数: func match(match: GKMatch, player playerID: String, didChangeState state: GKPlayerConnec
match - case 和 match 有什么区别？
我对 match 和 case 之间的区别感到困惑。在 document ，其中提到match支持通用模式匹配。 > (define (m x) (match x [(list a
javascript - .match ("") 和 .match(/^$/) 有什么区别？
我在检查特定元素中的空 HTML 内容时遇到了问题。当我使用 someElement.trim().match("") 即使 HTML 内容为空，我有时也会得到 true。我改成了 someEleme
python - 正则表达式 : match within a match
我正在尝试使用正则表达式查找包含特定词的两个词之间的所有内容，但是这些词是重复的，所以我没有得到我想要的匹配项。例如，我想要“你好”和“再见”之间的所有内容，以便它们之间存在“苹果”一词: hell
HTTP If-None-Match 与 If-Match
我目前正在构建一个 PHP 脚本，它将在需要时响应 HTTP“304 Not Modified”。 (请参阅 question #2086712 了解我目前所做的事情)。目前我回答以下问题: If-
ruby 正则表达式 : Matching a < without a matching >
给定以下 XML 10 我希望能够正确识别内部的 s : result = subject.gsub(/]*>)/, '<') 解释: ]* # any number of charact
excel - If Not IsError(MATCH) 没有绕过错误。如何跳过未找到的 MATCHes？
这个问题在这里已经有了答案: How to error handle 1004 Error with WorksheetFunction.VLookup? (3 个回答) 3年前关闭。目标:查找输入
arrays - -match…和|之间的区别其中{$ _ -match…}
我已经尝试了好一阵子了，但是我似乎无法弄清楚这两者之间的区别。特别是，与数据数组有关的差异: PS C:>$myarray = "a", "ab", "abc" PS C:>$myarray -mat
clojure - 将模式和结果作为向量传递给 core.match/match 的宏
我正在努力研究如何构建一个宏，让我可以将模式和结果以向量的形式传递给 core.match/match 。我希望能够做到这一点: (let [x {:a 1} patterns [[{:a
javascript - "matches x and remembers the match"在正则表达式中意味着什么
这个问题在这里已经有了答案: Reference - What does this regex mean? (1 个回答) 关闭 8 年前。如果这看起来微不足道但只是为了理解正则表达式，请原谅我:
php - 为什么 MATCH against 的效果不如 Exact match？
我的 MySQL 表中有大约 20 行，其 Title 列为 Elsewhere 并具有其他不同的列参数。我目前正在使用这样的查询，因为我的大多数搜索(通过 PHP 文件)都需要我进行猜测。所以我使
MYSQL : match and remove matched word from string
当找到匹配时，我必须从字符串中删除单词让我们看看我的输入字符串是 “肯诺克斯路” 比赛表演中的单词表街道驾驶道路 4. 车道输出字符串应该是: KENOX 我正在使用 vb.net 作为此
python - 正则表达式 : How to match using previous matches?
我正在搜索以下形式的字符串模式: XXXAXXX # exactly 3 Xs, followed by a non-X, followed by 3Xs 所有的 X 必须是相同的字符，并且 A 不能
javascript - gulp version.match -> 无法读取属性 "match"
好吧，我是 gulp 和 sass 的新手，我正在努力让它发挥作用。我正确安装了所有东西，但我收到了这个愚蠢的错误。有解决办法吗？ PS C:\Users\Bojan Kolano\Desktop\F

首页

博学

6Ren·AI

商城

php - PHP 中的正则表达式 : Matching to the UTS18 standard