gpt4 book ai didi

c++ - 获取 UTF-8 编码的 std::string 的实际长度?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:20:25 27 4
gpt4 key购买 nike

我的 std::string 是 utf-8 编码的,很明显,str.length() 返回了错误的结果。

我找到了此信息,但不确定如何使用它来执行此操作:

The following byte sequences are used to represent a character. The sequence to be used depends on the UCS code number of the character:

   0x00000000 - 0x0000007F:
0xxxxxxx

0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx

0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx

0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

如何找到 UTF-8 编码的 std::string 的实际长度?谢谢

最佳答案

计算所有第一个字节(那些不匹配 10xxxxxx 的)。

int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;

关于c++ - 获取 UTF-8 编码的 std::string 的实际长度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57667464/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com