gpt4 book ai didi

character-encoding - 围绕代码页使用的术语和概念

转载 作者:行者123 更新时间:2023-12-01 06:47:26 24 4
gpt4 key购买 nike

我正在研究代码页,并且遇到了许多相互矛盾的术语用法,即使在不同的 Wikipedia 条目中也是如此。我只是找不到从头到尾说明整个字符处理过程的信息来源。精通该领域的人能否提出以下信息不准确或不正确的方法:

据我了解字符表示的过程:

  • 我们从与任何特定平台无关的符号集(不确定这里的正确术语,可能是“脚本”)开始。例如,“西里尔字母”在 Windows 上下文中被理解为指代与 Linux 中相同的实体。
  • 这些字符集的成员通常由供应商选择成束,以形成特定于平台的字符集。平台可能会分配这些不同的代码,例如 Windows 上的 GDI 值(例如 0 表示 ANSI_CHARSET 和此处提到的其他代码:http://asa.diac24.net/wiki/index.php?title=ASS:fe&printable=yes)。我找不到关于这些集的太多信息,例如它们是否实际上是编码字符集,或者它们是否只是无序和抽象的。
  • 从这些集合中,开发出看起来与 GDI 值具有一对一映射关系的单个代码页。由于这些 GDI 值似乎表示依赖于平台的集合,这是否意味着 Windows 代码页本质上是每个单独集合的编码版本?

  • 我一直无法将这个想法与之前显示给我的链接(我已经丢失)协调起来,该链接显示了跨不同平台的这些 GDI 字符集和代码页之间的一对多映射。这是否准确,这些 GDI 值是否指向可以开发跨不同平台的不同代码页的集合?
  • 每个代码页将抽象字符集的一个成员映射到一个整数来表示它在集合中的位置。在上述网页中提到的“更简单”的代码页的情况下,可以使用更精确的“字符映射”术语来引用这些代码页。这个术语是否值得考虑,或者区别是否过于微妙和不重要?
  • 如果字体包含该代码点的代码点,则字体将代码点解析为字形,否则报告失败。我还读到,字体可能会为其不支持的那些代码点返回自己的空白字形。应用程序能否区分此空白字形和成功解析,即。字体是否返回带有此空白字形的各种错误代码?

  • 我相信这就是我的困惑程度。在这方面的任何澄清都将是无价的。提前致谢。

    最佳答案

    你基本上是正确的:

  • 从已知字符的数量开始。
  • 选择这个字符的一个子集(一个字符集)
  • 将这些映射到位模式(代码页和编码)
  • 通过将字符与字形组合(即使用字体、位模式和将位模式映射到字符的代码页/编码)将这些呈现到输出设备。

  • 跨平台,有类似的代码页。甚至在许多代码页中也有类似的值到字符的映射。例如,Windows Latin、Mac Roman 和 unicode 共享前 127 个值的字符。代码页有一些标准化(例如, http://en.wikipedia.org/wiki/Shift_JIS 用于日语)以便机器可以交互。

    通常对于新开发,您应该使用带有流行编码之一的 unicode 代码页。 UTF8 在大多数现代系统上都很流行。 UTF16LE 用于以 W 结尾的 Windows 系统调用。

    关于character-encoding - 围绕代码页使用的术语和概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3403594/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com