gpt4 book ai didi

string - 字符、代码点、字形和字素之间有什么区别?

转载 作者:行者123 更新时间:2023-12-03 04:36:35 30 4
gpt4 key购买 nike

试图理解现代 Unicode 的微妙之处让我很头疼。特别是,代码点、字符、字形和字素之间的区别 - 在最简单的情况下,当使用 ASCII 字符处理英语文本时,这些概念彼此之间具有一对一的关系- 给我带来了麻烦。

了解这些术语如何在 Matthias Bynens 的 JavaScript has a unicode problem 等文档中使用或维基百科关于 Han unification 的文章,我发现这些概念不是同一件事,将它们混为一谈是危险的,但我有点难以理解每个术语的含义。

Unicode 联盟提供 glossary解释这个东西,但它充满了这样的“定义”:

Abstract Character. A unit of information used for the organization, control, or representation of textual data. ...

...

Character. ... (2) Synonym for abstract character. (3) The basic unit of encoding for the Unicode character encoding. ...

...

Glyph. (1) An abstract form that represents one or more glyph images. (2) A synonym for glyph image. In displaying Unicode character data, one or more glyphs may be selected to depict a particular character.

...

Grapheme. (1) A minimally distinctive unit of writing in the context of a particular writing system. ...

这些定义中的大多数都具有听起来非常学术和正式的品质,但缺乏有意义的品质,或者将定义问题推迟到标准的另一个术语表条目或部分。

因此,我寻求那些比我更有学识的人的神秘智慧。这些概念之间究竟有何不同,在什么情况下它们彼此之间不会存在一对一的关系?

最佳答案

  • 角色是一个重载术语,可以表示多种含义。

  • 代码点是信息的原子单位。 文本是一个代码点序列。每个代码点都是一个由 Unicode 标准赋予含义的数字。

  • 代码单元是编码代码点部分的存储单元。在 UTF-8 中这意味着 8 位,在 UTF-16 中这意味着 16 位。单个代码单元可以表示完整的代码点或代码点的一部分。例如,雪人字形 () 是单个代码点,但有 3 个 UTF-8 代码单元和 1 个 UTF-16 代码单元。

  • 字素是一个或多个代码点的序列,它们显示为单个图形单元,读者将其识别为书写系统的单个元素。例如,aä 都是字素,但它们可能由多个代码点组成(例如 ä 可能是两个代码点,一个代表基本字符 a 后跟一个用于分音符号的字符;但还有一个替代的、传统的、单个代码点来表示该字素)。某些代码点永远不是任何字素的一部分(例如零宽度非连接符或方向覆盖)。

  • 字形是一种图像,通常存储在字体(字形的集合)中,用于表示字素或其部分。字体可以将多个字形组合成单个表示形式,例如,如果上面的 ä 是单个代码点,则字体可以选择将其呈现为两个独立的、空间重叠的字形。对于 OTF,字体的 GSUB 和 GPOS 表包含实现此功能的替换和定位信息。字体也可能包含同一字素的多个替代字形。

关于string - 字符、代码点、字形和字素之间有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27331819/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com