gpt4 book ai didi

c++ - 为什么扩展的 ASCII(特殊)字符需要 2 个字节才能存储?

转载 作者:太空狗 更新时间:2023-10-29 23:50:35 26 4
gpt4 key购买 nike

范围从 32 到 126 的 ASCII 是可打印的。 127 是 DEL,此后被认为是 extended characters .

为了检查它们是如何存储在 std::string 中的,我写了一个测试程序:

int main ()
{
string s; // ASCII
s += "!"; // 33
s += "A"; // 65
s += "a"; // 97
s += "â"; // 131
s += "ä"; // 132
s += "à"; // 133

cout << s << endl; // Print directly
for(auto i : s) // Print after iteration
cout << i;

cout << "\ns.size() = " << s.size() << endl; // outputs 9!
}

上面代码中可见的特殊字符实际上看起来不同,这些可以在 online example 中看到(在 vi 中也可见)。

在字符串 s 中,前 3 个正常字符按预期各占 1 个字节。接下来的 3 个扩展字符每个占用 2 个字节。

问题:

  1. 尽管是 ASCII(在 0 到 256 范围内),为什么这 3 个扩展字符占用 2 个字节的空间?
  2. 当我们使用基于范围的循环遍历 s 时,它是如何计算出对于普通字符它必须递增 1 次而对于扩展字符它必须递增 2 次!?

[注意:这也可能适用于 C 和其他语言。]

最佳答案

  1. Despite being an ASCII (within range of 0 to 256), why those 3 extended characters take 2 bytes of space?

如果您将“作为 ASCII”定义为仅包含 [0, 256) 范围内的字节,那么所有数据都是 ASCII:[0, 256) 与一个字节能够表示的范围相同,因此所有数据用字节表示的是ASCII,根据你的定义。

问题是您的定义不正确,并且您对数据类型的确定方式的看法不正确;字节序列表示的数据类型不是由这些字节决定的。相反,数据类型是字节序列外部的元数据。 (这并不是说不可能检查字节序列并从统计上确定它可能是哪种数据。)

让我们检查您的代码,牢记以上内容。我从您的源代码的两个版本中提取了相关片段:

s += "â"; // 131
s += "ä"; // 132

s += "â"; // 131
s += "ä"; // 132

您将这些源代码片段视为在浏览器中呈现的文本,而不是原始二进制数据。您将这两件事呈现为“相同”数据,但实际上它们并不相同。上图是两个不同的字符序列。

然而,这两个文本元素序列有一些有趣的地方:其中一个在使用某种编码方案编码为字节时,在编码时由与另一个文本元素序列相同的字节序列表示使用不同的编码方案转换为字节。也就是说,磁盘上的相同字节序列可能代表两个不同的文本元素序列,取决于编码方案!换句话说,为了弄清楚字节序列是什么意思,我们必须知道它是什么类型的数据,因此需要知道使用什么解码方案。

这就是可能发生的事情。在 vi 中你写道:

s += "â"; // 131
s += "ä"; // 132

您的印象是 vi 会使用扩展 ASCII 表示这些字符,因此使用字节 131 和 132。但这是不正确的。 vi 没有使用扩展的 ASCII,而是使用不同的方案 (UTF-8) 表示这些字符,该方案恰好使用两个字节来表示这些字符中的每一个。

后来,当您在不同的编辑器中打开源代码时,该编辑器错误地假定该文件是扩展的 ASCII 文件并照此显示。由于扩展 ASCII 对每个字符使用一个字节,因此它使用两个字节 vi 来表示每个字符,并为每个字节显示一个字符。

最重要的是,您认为源代码使用的是扩展 ASCII 是错误的,因此您假设这些字符将由值为 131 和 132 的单个字节表示是不正确的。

  1. When we iterate through the s using range based loop, how is it figured out that for normal characters it has to increment 1 time and for extended characters 2 times!?

您的程序没有这样做。在您的 ideone.com 示例中,字符打印正常,因为独立打印出代表这些字符的两个字节可以显示该字符。这是一个清楚说明这一点的示例:live example .

std::cout << "Printed together: '";
std::cout << (char)0xC3;
std::cout << (char)0xA2;
std::cout << "'\n";

std::cout << "Printed separated: '";
std::cout << (char)0xC3;
std::cout << '/';
std::cout << (char)0xA2;
std::cout << "'\n";

Printed together: 'â'
Printed separated: '�/�'

“�”字符是遇到无效编码时显示的字符。

如果您问如何编写执行此操作的程序,答案是使用了解所用编码细节的代码。要么获得一个理解 UTF-8 的库,要么自己阅读 UTF-8 规范。

您还应该记住,这里使用 UTF-8 只是因为此编辑器和编译器默认使用 UTF-8。如果你用不同的编辑器编写相同的代码并用不同的编译器编译它,编码可能完全不同;假设代码是 UTF-8 可能与您之前假设代码是扩展 ASCII 一样错误。

关于c++ - 为什么扩展的 ASCII(特殊)字符需要 2 个字节才能存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28966141/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com