gpt4 book ai didi

c++ - 为什么 8 位字符串文字可以包含多字节字符,而 char vector 不能?

转载 作者:行者123 更新时间:2023-12-05 08:45:40 26 4
gpt4 key购买 nike

我想弄清楚为什么 8 位 char 数据类型可以包含所有这些奇怪的字符,因为它们不是前 256 个字符表的一部分。

#include <iostream>

int main()
{
char chars[] = "😎 🥸 🤩 🥳 必 西 ♠ ♬ ♭ ♮ ♯";
std::cout << "sizeof(char): " << sizeof(char) << " byte" << std::endl;
std::cout << chars << std::endl;
return 0;
}

enter image description here

最佳答案

一个 8 位的 char 最多只能容纳 256 个值。但是 Unicode 有几十万个字符。它们显然不能放入单个 char 中。因此,它们必须以适合多个 char 的方式进行编码

您的编辑器/编译器可能会将您的示例字符串存储在 UTF-8 中编码。 UTF-8 中的非 ASCII 字符占用超过 1 个 char

在您的示例中,在 UTF-8 中,sizeof(chars) 的大小为 55+1=56 chars (+ 1 表示空终止符),即使您只看到 29 个“字符”(如果算上空格),其中:

= 0x20 (18x)
😎 = 0xF0 0x9F 0x98 0x8E
🥸 = 0xF0 0x9F 0xA5 0xB8
🤩 = 0xF0 0x9F 0xA4 0xA9
🥳 = 0xF0 0x9F 0xA5 0xB3
= 0xE5 0xBF 0x85
西 = 0xE8 0xA5 0xBF
= 0xE2 0x99 0xA0
= 0xE2 0x99 0xAC
= 0xE2 0x99 0xAD
= 0xE2 0x99 0xAE
= 0xE2 0x99 0xAF

关于c++ - 为什么 8 位字符串文字可以包含多字节字符,而 char vector 不能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71975790/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com