gpt4 book ai didi

unicode - Unicode 联盟是否打算让 UTF-16 用完字符?

转载 作者:行者123 更新时间:2023-12-04 18:13:00 27 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。

8年前关闭。




Improve this question




当前版本的 UTF-16 只能编码 1,112,064 个不同的数字(代码点); 0x0-0x10FFFF .

Unicode 联盟是否打算让 UTF-16 用完字符?

即制作一个代码点> 0x10FFFF
如果没有,为什么有人会为 utf-8 解析器编写代码以接受 5 或 6 字节序列?因为它会为它们的功能添加不必要的指令。

1,112,064 还不够吗,我们真的需要更多字符吗?我的意思是:我们用完的速度有多快?

最佳答案

截至 2011 年 we have consumed 109,449 characters AND set aside for application use(6,400+131,068) :

为超过 860,000 个未使用的字符留出空间;足够 CJK extension E(~10,000 个字符)和 85 个以上的集合;以便在与 Ferengi culture 接触的情况下,我们应该做好准备。

2003 年 11 月,IETF 将 UTF-8 限制为以 U+10FFFF 结尾和 RFC 3629 ,以匹配 UTF-16 字符编码的约束:UTF-8 解析器不应接受会溢出 utf 的 5 或 6 字节序列-16 组,或 4 字节序列中大于 0x10FFFF 的字符

如果超过 CJK extension E 大小的 1/3(约 10,000 个字符),请在此处放置对 unicode 代码点限制大小构成威胁的编辑列表集:

  • CJK extension E(约 10,000 个字符)
  • Ferengi culture characters(约 5,000 个字符)
  • 关于unicode - Unicode 联盟是否打算让 UTF-16 用完字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9384120/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com