gpt4 book ai didi

java - 正则表达式:什么是 InCombiningDiacriticalMarks?

转载 作者:IT老高 更新时间:2023-10-28 11:44:59 31 4
gpt4 key购买 nike

以下代码是众所周知的将重音字符转换为纯文本的代码:

Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");

我用这个替换了我的“手工”方法,但我需要了解 replaceAll 的“正则表达式”部分

1) 什么是“InCombiningDiacriticalMarks”?
2)它的文档在哪里? (和类似的?)

谢谢。

最佳答案

\p{InCombiningDiacriticalMarks} 是 Unicode block 属性。在 JDK7 中,您将能够使用两部分表示法 \p{Block=CombiningDiacriticalMarks} 来编写它,这对读者来说可能更清楚。它记录在here in UAX#44: “The Unicode Character Database” .

这意味着代码点位于特定范围内,即一个 block ,已分配给该名称的事物使用。这是一种不好的方法,因为不能保证该范围内的代码点是或不是任何特定的东西,也不能保证该 block 之外的代码点本质上不是相同的字符。

例如,\p{Latin_1_Supplement} block 中有拉丁字母,如é、U+00E9。但是,那里也有不是拉丁字母的东西。当然,到处都是拉丁字母。

方 block 几乎从来都不是你想要的。

在这种情况下,我怀疑您可能想要使用属性 \p{Mn},也就是 \p{Nonspacing_Mark}。 Combining_Diacriticals block 中的所有代码点都属于这种类型。还有(从 Unicode 6.0.0 开始)1087 个 Nonspacing_Marks 在该 block 中是 not

这与检查 \p{Bidi_Class=Nonspacing_Mark} 几乎相同,但不完全一样,因为该组还包括封闭标记 \p{Me}。如果你想要两者,你可以说 [\p{Mn}\p{Me}] 如果你使用的是默认的 Java 正则表达式引擎,因为它只允许访问 General_Category 属性。

您必须像 Google 那样使用 JNI 才能访问 ICU C++ 正则表达式库,才能访问 \p{BC=NSM} 之类的东西,因为现在只有 ICU 和 Perl授予对所有 Unicode 属性的访问权限。普通的 Java 正则表达式库只支持几个标准的 Unicode 属性。尽管在 JDK7 中 支持 Unicode Script 属性,但它几乎无限优于 Block 属性。因此,您可以在 JDK7 中编写 \p{Script=Latin}\p{SC=Latin},或简写 \p{Latin},获取拉丁文中的任何字符。这导致非常常用[\p{Latin}\p{Common}\p{Inherited}]

请注意,这不会从所有字符中删除您可能认为的“重音”标记!有很多它不会这样做。例如,您不能通过这种方式将 Đ 转换为 Dø 转换为 o。为此,您需要将代码点减少到与 Unicode 排序表中相同的主要排序强度匹配的代码点。

\p{Mn} 失败的另一个地方当然是括起来像 \p{Me} 这样的标记,很明显,但也有 \p{变音符号} 字符不是标记。遗憾的是,您需要为此提供完整的属性支持,这意味着 JNI 对于 ICU 或 Perl。恐怕 Java 在 Unicode 支持方面存在很多问题。

哦,等等,我看到你是葡萄牙人。如果您只处理葡萄牙语文本,那么您应该没有任何问题。

但是,我敢打赌,您并不是真的想删除重音,而是希望能够“不区分重音”地匹配事物,对吧?如果是这样,那么您可以使用 ICU4J (ICU for Java) collator class .如果您以主要强度进行比较,则重音符号将不计算在内。我一直这样做是因为我经常处理西类牙语文本。如果您需要,我有一个示例,说明如何为坐在附近的西类牙人执行此操作。

关于java - 正则表达式:什么是 InCombiningDiacriticalMarks?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5697171/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com