java - 如何正确规范化具有复合字符的字符串？-6ren

java - 如何正确规范化具有复合字符的字符串？

转载作者：太空狗更新时间：2023-10-29 22:35:56

25

4

Java Normalize 已经允许我使用重音字符并输出非重音字符。但是，它似乎根本无法很好地处理复合字符(Œ、Æ)。

Java 有没有办法在本地处理这些字符？我想避免必须保留这些字符的 Map(因为这是我们首先转向使用 Normalize 的原因)。

例如，“Œ”的输入应该返回“OE”，就像它已经将“½”等字符巧妙地分解为“1/2”一样。

最佳答案

TLDR；不， native java 无法统一处理这些。

长答案

如本问题所述，Separating Unicode ligature characters , Java Normalizer实现不支持书面语言中存在的所有连字。

这是因为 Unicode 不支持书面语言中存在的所有连字。在书面语言的存储方面，连字是一个有争议的话题，因为有人认为从数据的角度来看它们不重要，而从布局的角度来看它们很重要。

数据观点声称没有信息丢失，因此只使用分解形式更有意义，组合形式不应采用 Unicode。

Layout 观点认为组合连字代表了书面语言的正确布局，因此应该用特殊代码在数据中表示。

可能的解决方案

我建议创建一个 Service它有一个只处理连字的接口(interface)。提供一个具体的实现来处理您当前需要的所有内容。将来，如果需要新的实现，只需将新的 JAR 添加到添加缺失连字的程序类路径中，即可轻松添加它们而无需修改原始代码。

框架实现可能如下所示。

请注意，我省略了实际使用 ServiceLoader 来定位 LigatureDecoder 和 LigatureEncoder 实现的代码。

final class Ligatures {
  public static CharSequence compose ( CharSequence decomposedCharacters );
  public static CharSequence decompose ( CharSequence composedCharacters );
}

interface LigatureDecoder {
  CharSequence decompose ( CharSequence composedCharacters );
}

interface LigatureEncoder {
  CharSequence compose ( CharSequence decomposedCharacters );
}

关于java - 如何正确规范化具有复合字符的字符串？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48385080/

25

4

0

文章推荐： c# - 在多线程环境中使用 Log4Net

文章推荐： c# - 为什么 IL 代码中的 STLoc.0 之后有一个 ldloc.0？

url - 规范化/规范化 URL？
我正在寻找一个库函数来规范化 Python 中的 URL，即删除路径中的“./”或“../”部分，或添加默认端口或转义特殊字符等。结果应该是指向同一网页的两个 URL 唯一的字符串。例如 http:/
xml - 规范化/规范化 XSD 模式模式以进行文本比较
我有 2 个版本的 XSD 文件，我想看看它们之间做了哪些更改。不幸的是，发布者选择完全重写 XSD，更改元素、属性、命名空间前缀等的顺序。是否有工具(命令行或 GUI)可以将它们转换为我可以使用的规
CSS重置+规范化？
我一直在想，同时使用 normalize.css 和某种 CSS 重置会不会有什么大问题？我一直在四处挖掘，我遇到的所有文章都只是以非此即彼的方式谈论它们，而没有谈及将两者结合起来。诚然，我在规范化
数据库设计 - 规范化
这对我来说是一个新话题，我已经阅读了几篇文章，但我仍然不清楚，甚至不确定以下问题是否与这篇文章的标题有关。我的系统向用户发送数据。用户可以选择通过以下方式发送数据: XML 电子邮件发布根据用户
SQL:将一行分成多行(规范化)
我正在从设计不佳的旧数据库升级到新数据库。在旧数据库中有带有字段 Id 和 Commodities 的 tableA。 Id 是主键，包含一个 int，Commodities 包含一个逗号分隔的列表。
unicode - 规范化 unicode
假设我有包含此字符串的 Apache Solr 索引文档: Klüft skräms inför 我希望能够使用此关键字通过搜索找到它(注意“u”-“ü”): kluft 有没有办法做到这一点？最
validation - 规范化/验证数据库中的国际数据集？
假设您正在处理常规的联系人数据库（您知道...姓名，电话号码，地址，电子邮件等...）。如果您在本地对此感到疑惑，那么一般来说这不是什么大问题，但是当我们查看国际场景时，它就是。查看电话号码系统，您
没有任何包的 Python 规范化
尝试在不使用 python 中的任何包的情况下计算 L1 范数假设我有向量:l = [2.34, 3.32, 6.32, 2.5, 3,3, 5.32] 我想找到这个向量的L1，没有任何包: 我已经
MySQL:规范化，这是一个有效的异常吗？
我们拥有 10 年的存档体育数据，分布在不同的数据库中。尝试将所有数据合并到一个数据库中。由于我们将处理 10 倍的记录数量，因此我现在正在尝试重新设计架构以避免潜在的性能影响。一项更改是将团队名
MySQL 模式设计问题 - 规范化
我正在使用以下设计为我的网站创建表格设计1 设计2 由于并非所有注册用户都会尝试挑战，因此设计 1 适合。插入第三个表时，表 2 分数会相应更新。但是 user_id 字段变得多余。设计 2 中为
mysql - 规范化 - 将数据迁移到另一个表
我有一个带有字段 json 的表模板。由于 json 对于许多 template 来说可能是相同的 (1:n)，我创建了另一个表 template_json 并添加了字段 template_json_
c++ - 规范化 "Point"
我有一个具有正交投影的 C++/OpenGl/Glut 应用程序。窗口的宽度为 500 x 500 像素。目前，当鼠标点击发生时，该点将在 (0,0) 和 (500, 500) 之间。我想获取该点
java - 构建单独的类(规范化？)
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
JavaScript Unicode 规范化
我的印象是 JavaScript 解释器假设它正在解释的源代码已经被规范化。什么，规范化到底是做什么的？它不能是文本编辑器，否则源的明文表示会改变。是否有一些执行规范化的“预处理器”？最佳答案 EC
mysql - 良好的数据库设计/规范化
我被分配了一项任务，但我不确定如何完成它: 我必须构建一个支持多种设备的消息系统，并且它应该尽可能高效。用户最多可以有 10 台设备，当用户收到消息时，所有设备都需要接收消息。我有两个想法: Tab
mysql - 规范化，困惑
我正在尝试将规范化合并到我的数据库设计中，互联网上提供的一些解释让我有点困惑 - 我不确定我是否在朝着正确的方向前进？到目前为止我有: 用户: id username password 用户配置文件
database - 规范化 - 重复外键
规范化数据时，是否可以接受在同一张表中重复使用外键？例如一家 express 公司有一个订单表和一个客户表，订单表会记录从哪个客户那里取件(Customer_ID)，并且还会有一列用于说明要交付给哪
Java:XML 规范化
用 Java 制作规范形式的 XML 文件的最简单方法是什么？你有一些完成的代码吗？我在网上找到了几个链接，比如 this , this , 和 this ，但我无法让它工作:/ 谢谢，伊凡编辑:
python - 规范化 Unicode
在 Python 中是否有标准方法来规范化 unicode 字符串，以便它只理解可用于表示它的最简单的 unicode 实体？我的意思是，可以将 ['LATIN SMALL LETTER A', '
excel - 规范化 VBA 中关于时间的日期
我知道这个问题已经讨论了很多——但实际上我还没有找到这个问题的最终答案。我想从我的 VBA(Excel)脚本中的日期“删除”(或更确切地说是标准化)时间。例如。: 20.12.2017 15:16

首页

博学

6Ren·AI

商城

java - 如何正确规范化具有复合字符的字符串？