- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
以下代码是众所周知的将重音字符转换为纯文本的代码:
Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");
我用这个替换了我的“手工”方法,但我需要了解 replaceAll 的“正则表达式”部分
1) 什么是“InCombiningDiacriticalMarks”?
2)它的文档在哪里? (和类似的?)
谢谢。
最佳答案
\p{InCombiningDiacriticalMarks}
是 Unicode block 属性。在 JDK7 中,您将能够使用两部分表示法 \p{Block=CombiningDiacriticalMarks}
来编写它,这对读者来说可能更清楚。它记录在here in UAX#44: “The Unicode Character Database” .
这意味着代码点位于特定范围内,即一个 block ,已分配给该名称的事物使用。这是一种不好的方法,因为不能保证该范围内的代码点是或不是任何特定的东西,也不能保证该 block 之外的代码点本质上不是相同的字符。
例如,\p{Latin_1_Supplement}
block 中有拉丁字母,如é、U+00E9。但是,那里也有不是拉丁字母的东西。当然,到处都是拉丁字母。
方 block 几乎从来都不是你想要的。
在这种情况下,我怀疑您可能想要使用属性 \p{Mn}
,也就是 \p{Nonspacing_Mark}
。 Combining_Diacriticals block 中的所有代码点都属于这种类型。还有(从 Unicode 6.0.0 开始)1087 个 Nonspacing_Marks 在该 block 中是 not。
这与检查 \p{Bidi_Class=Nonspacing_Mark}
几乎相同,但不完全一样,因为该组还包括封闭标记 \p{Me}
。如果你想要两者,你可以说 [\p{Mn}\p{Me}]
如果你使用的是默认的 Java 正则表达式引擎,因为它只允许访问 General_Category 属性。
您必须像 Google 那样使用 JNI 才能访问 ICU C++ 正则表达式库,才能访问 \p{BC=NSM}
之类的东西,因为现在只有 ICU 和 Perl授予对所有 Unicode 属性的访问权限。普通的 Java 正则表达式库只支持几个标准的 Unicode 属性。尽管在 JDK7 中 将 支持 Unicode Script 属性,但它几乎无限优于 Block 属性。因此,您可以在 JDK7 中编写 \p{Script=Latin}
或 \p{SC=Latin}
,或简写 \p{Latin}
,获取拉丁文中的任何字符。这导致非常常用[\p{Latin}\p{Common}\p{Inherited}]
。
请注意,这不会从所有字符中删除您可能认为的“重音”标记!有很多它不会这样做。例如,您不能通过这种方式将 Đ 转换为 D 或 ø 转换为 o。为此,您需要将代码点减少到与 Unicode 排序表中相同的主要排序强度匹配的代码点。
\p{Mn}
失败的另一个地方当然是括起来像 \p{Me}
这样的标记,很明显,但也有 \p{变音符号}
字符不是标记。遗憾的是,您需要为此提供完整的属性支持,这意味着 JNI 对于 ICU 或 Perl。恐怕 Java 在 Unicode 支持方面存在很多问题。
哦,等等,我看到你是葡萄牙人。如果您只处理葡萄牙语文本,那么您应该没有任何问题。
但是,我敢打赌,您并不是真的想删除重音,而是希望能够“不区分重音”地匹配事物,对吧?如果是这样,那么您可以使用 ICU4J (ICU for Java) collator class .如果您以主要强度进行比较,则重音符号将不计算在内。我一直这样做是因为我经常处理西类牙语文本。如果您需要,我有一个示例,说明如何为坐在附近的西类牙人执行此操作。
关于java - 正则表达式:什么是 InCombiningDiacriticalMarks?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5697171/
以下代码是众所周知的将重音字符转换为纯文本的代码: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombinin
我是一名优秀的程序员,十分优秀!