gpt4 book ai didi

algorithm - 在UTF :s without intermediate encoding之间转换

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:07:00 27 4
gpt4 key购买 nike

是否可以在 UTF-8 和 UTF-16 之间转换而不先解码为 UCS-4,然后在不使用大型映射表的情况下对生成的代码点进行编码?

最佳答案

我认为这个问题比评论所暗示的更有趣:

  • UTF-8 -> UTF-16:如果逐字编写 UTF-16 是不可能的(如果逐字节编写,我认为这取决于 UTF-16LE 与 UTF-16BE)。 UTF-8编码7位1字节,11位2字节(5/6位),16位3字节(4/6/6位)和21位4字节(3/6/6/6) .唯一有趣的情况是您读取超过 16 位,超过第一个 UTF-16 字,即 21 位。不幸的是,前四个 UTF-8 字节仅包含 15 位 (3 + 6 + 6),因此在读取所有四个字节之前不能写入第一个 UTF-16 字。所以先解码成UCS-4没有区别。

  • UTF-16 -> UTF-8:读完第一个字就知道是不是在0xffff以上,这样就得到前导11位和总位数,就知道多了小于 16。因此在这种情况下,您可以已经写入前两个 UTF-8 字节(3+6=9 位)。

关于algorithm - 在UTF :s without intermediate encoding之间转换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30084571/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com