gpt4 book ai didi

utf-8 - 什么是多字节字符集?

转载 作者:行者123 更新时间:2023-12-03 08:20:07 25 4
gpt4 key购买 nike

术语多字节是指字符集可以 - 但不必 - 宽于 1 个字节,(例如 UTF-8)还是指在任何情况下都宽于 1 个字节的字符集(例如 UTF -16) ?换句话说:如果有人谈论多字节字符集,这意味着什么?

最佳答案

该术语含糊不清,但在我的国际化工作中,我们通常避免使用术语“多字节字符集”来指代基于 Unicode 的编码。通常,我们仅将这个术语用于具有一个或多个字节来定义每个字符的传统编码方案(不包括每个字符只需要一个字节的编码)。

通常包括 Shift-jis、jis、euc-jp、euc-kr 以及中文编码。

大多数遗留编码,除了一些异常(exception),都需要某种状态机模型(或者更简单地说,页面交换模型)来处理,并且在文本流中向后移动是复杂且容易出错的。 UTF-8 和 UTF-16 没有这个问题,因为可以使用位掩码测试 UTF-8,可以针对一系列代理对测试 UTF-16,因此在非病理文档中前后移动可以安全地完成,没有很大的复杂性。

对于泰语和越南语等语言,一些遗留编码具有多字节字符集的一些复杂性,但实际上只是建立在组合字符的基础上,通常不会与广义的“多字节”一词混为一谈。

关于utf-8 - 什么是多字节字符集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/748965/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com