string - 何时使用 Unicode 规范化形式 NFC 和 NFD？-6ren

string - 何时使用 Unicode 规范化形式 NFC 和 NFD？

转载作者：行者123 更新时间：2023-12-03 11:58:13

26

4

Unicode Normalization FAQ包括以下段落:

Programs should always compare canonical-equivalent Unicode strings as equal ... The Unicode Standard provides well-defined normalization forms that can be used for this: NFC and NFD.

并继续...

The choice of which to use depends on the particular program or system. NFC is the best form for general text, since it is more compatible with strings converted from legacy encodings. ... NFD and NFKD are most useful for internal processing.

我的问题是:

是什么让 NFC 最适合“一般文本”。什么定义了“内部处理”，为什么最好留给 NFD？最后，不管什么是“最佳”，只要使用相同的规范化形式比较两个字符串，这两种形式是否可以互换？

最佳答案

FAQ 有点误导，从它使用“应该”开始，然后是关于同一事物的“要求”的不一致使用。 Unicode 标准本身(在 FAQ 中引用)更准确。基本上，您不应该期望程序将规范等价的字符串视为不同，但也不应该期望所有程序都将它们视为相同。

实际上，这实际上取决于您的软件需要做什么。在大多数情况下，您根本不需要归一化，归一化可能会破坏数据中的基本信息。

例如，U+0387 GREEK ANO TELEIA (·) 被定义为与 U+00B7 MIDDLE DOT (·) 等效的规范。这是一个错误，因为角色真的很不同，应该以不同的方式呈现，并在处理中进行不同的处理。但改变这一点为时已晚，因为 Unicode 的这一部分已经刻在石头上。因此，如果您将数据转换为 NFC 或以其他方式丢弃规范等效字符串之间的差异，则可能会出现错误字符。

不规范化会带来风险。例如，字母“ä”可以显示为单个 Unicode 字符 U+00E4 LATIN SMALL LETTER A WITH DIAERESIS 或两个 Unicode 字符 U+0061 LATIN SMALL LETTER A U+0308 COMBINING DIAERESIS。它主要是前者，即预组合形式，但如果是后者并且您的代码测试包含“ä”的数据，仅使用预组合形式，则不会检测到后者。但是在很多情况下，您不会做这样的事情，而只是简单地存储数据、连接字符串、打印它们等。那么这两种表示可能会导致渲染有些不同。

您的软件是否以某种方式将字符数据传递给其他软件也很重要。由于幼稚的隐含假设或有意识地以记录的方式，接收者可能期望其输入是规范化的。

关于string - 何时使用 Unicode 规范化形式 NFC 和 NFD？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15985888/

26

4

0

文章推荐： google-chrome - Chrome开发者工具中的Sass/SCSS支持

文章推荐： javascript - JavaScript 对象中未定义函数

文章推荐： jar - Android Gradle构建系统:创建Jar非库

url - 规范化/规范化 URL？
我正在寻找一个库函数来规范化 Python 中的 URL，即删除路径中的“./”或“../”部分，或添加默认端口或转义特殊字符等。结果应该是指向同一网页的两个 URL 唯一的字符串。例如 http:/
xml - 规范化/规范化 XSD 模式模式以进行文本比较
我有 2 个版本的 XSD 文件，我想看看它们之间做了哪些更改。不幸的是，发布者选择完全重写 XSD，更改元素、属性、命名空间前缀等的顺序。是否有工具(命令行或 GUI)可以将它们转换为我可以使用的规
CSS重置+规范化？
我一直在想，同时使用 normalize.css 和某种 CSS 重置会不会有什么大问题？我一直在四处挖掘，我遇到的所有文章都只是以非此即彼的方式谈论它们，而没有谈及将两者结合起来。诚然，我在规范化
数据库设计 - 规范化
这对我来说是一个新话题，我已经阅读了几篇文章，但我仍然不清楚，甚至不确定以下问题是否与这篇文章的标题有关。我的系统向用户发送数据。用户可以选择通过以下方式发送数据: XML 电子邮件发布根据用户
SQL:将一行分成多行(规范化)
我正在从设计不佳的旧数据库升级到新数据库。在旧数据库中有带有字段 Id 和 Commodities 的 tableA。 Id 是主键，包含一个 int，Commodities 包含一个逗号分隔的列表。
unicode - 规范化 unicode
假设我有包含此字符串的 Apache Solr 索引文档: Klüft skräms inför 我希望能够使用此关键字通过搜索找到它(注意“u”-“ü”): kluft 有没有办法做到这一点？最
validation - 规范化/验证数据库中的国际数据集？
假设您正在处理常规的联系人数据库（您知道...姓名，电话号码，地址，电子邮件等...）。如果您在本地对此感到疑惑，那么一般来说这不是什么大问题，但是当我们查看国际场景时，它就是。查看电话号码系统，您
没有任何包的 Python 规范化
尝试在不使用 python 中的任何包的情况下计算 L1 范数假设我有向量:l = [2.34, 3.32, 6.32, 2.5, 3,3, 5.32] 我想找到这个向量的L1，没有任何包: 我已经
MySQL:规范化，这是一个有效的异常吗？
我们拥有 10 年的存档体育数据，分布在不同的数据库中。尝试将所有数据合并到一个数据库中。由于我们将处理 10 倍的记录数量，因此我现在正在尝试重新设计架构以避免潜在的性能影响。一项更改是将团队名
MySQL 模式设计问题 - 规范化
我正在使用以下设计为我的网站创建表格设计1 设计2 由于并非所有注册用户都会尝试挑战，因此设计 1 适合。插入第三个表时，表 2 分数会相应更新。但是 user_id 字段变得多余。设计 2 中为
mysql - 规范化 - 将数据迁移到另一个表
我有一个带有字段 json 的表模板。由于 json 对于许多 template 来说可能是相同的 (1:n)，我创建了另一个表 template_json 并添加了字段 template_json_
c++ - 规范化 "Point"
我有一个具有正交投影的 C++/OpenGl/Glut 应用程序。窗口的宽度为 500 x 500 像素。目前，当鼠标点击发生时，该点将在 (0,0) 和 (500, 500) 之间。我想获取该点
java - 构建单独的类(规范化？)
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
JavaScript Unicode 规范化
我的印象是 JavaScript 解释器假设它正在解释的源代码已经被规范化。什么，规范化到底是做什么的？它不能是文本编辑器，否则源的明文表示会改变。是否有一些执行规范化的“预处理器”？最佳答案 EC
mysql - 良好的数据库设计/规范化
我被分配了一项任务，但我不确定如何完成它: 我必须构建一个支持多种设备的消息系统，并且它应该尽可能高效。用户最多可以有 10 台设备，当用户收到消息时，所有设备都需要接收消息。我有两个想法: Tab
mysql - 规范化，困惑
我正在尝试将规范化合并到我的数据库设计中，互联网上提供的一些解释让我有点困惑 - 我不确定我是否在朝着正确的方向前进？到目前为止我有: 用户: id username password 用户配置文件
database - 规范化 - 重复外键
规范化数据时，是否可以接受在同一张表中重复使用外键？例如一家 express 公司有一个订单表和一个客户表，订单表会记录从哪个客户那里取件(Customer_ID)，并且还会有一列用于说明要交付给哪
Java:XML 规范化
用 Java 制作规范形式的 XML 文件的最简单方法是什么？你有一些完成的代码吗？我在网上找到了几个链接，比如 this , this , 和 this ，但我无法让它工作:/ 谢谢，伊凡编辑:
python - 规范化 Unicode
在 Python 中是否有标准方法来规范化 unicode 字符串，以便它只理解可用于表示它的最简单的 unicode 实体？我的意思是，可以将 ['LATIN SMALL LETTER A', '
excel - 规范化 VBA 中关于时间的日期
我知道这个问题已经讨论了很多——但实际上我还没有找到这个问题的最终答案。我想从我的 VBA(Excel)脚本中的日期“删除”(或更确切地说是标准化)时间。例如。: 20.12.2017 15:16

首页

博学

6Ren·AI

商城

string - 何时使用 Unicode 规范化形式 NFC 和 NFD？