gpt4 book ai didi

unicode - 不同语言的最小 Unicode 编码?

转载 作者:行者123 更新时间:2023-12-02 07:16:34 24 4
gpt4 key购买 nike

不同语言的不同 unicode 编码的典型平均每字符字节数是多少?

例如如果我想要最少的字节数来编码一些英文文本,那么平均而言,UTF-8 将是每个字符 1 个字节,而 UTF-16 将是 2 个字节,所以我会选择 UTF-8。

如果我想要一些韩文文本,那么 UTF-16 可能平均每个字符大约 2 个字符,但 UTF-8 可能平均大约 3 个字符(我不知道,我只是在这里编一些说明性数字)。

哪种编码对不同语言和字符集的存储要求最小?

最佳答案

对于任何给定的语言,每个字符的字节数比率都相当稳定,因为大多数语言都分配给连续的代码页。最大的异常(exception)是重音拉丁字符,它们在代码空间中的分配比非重音形式更高。对于这些,我没有确切的数字。

对于具有连续字符分配的语言,有一个 table with detailed numbers for various languages在维基百科上。通常,UTF-8 适用于大多数小字符集(分配在高代码页上的字符集除外),而 UTF-16 适用于双字节字符集。

如果你需要更密集的压缩,你可能还想看看Unicode Technical Note 14 ,它比较了一些旨在减少各种语言数据大小的专用编码。但这些技术并不是特别常见。

关于unicode - 不同语言的最小 Unicode 编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/92073/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com