c++ - 为什么扩展的 ASCII(特殊)字符需要 2 个字节才能存储？-6ren

c++ - 为什么扩展的 ASCII(特殊)字符需要 2 个字节才能存储？

转载作者：太空狗更新时间：2023-10-29 23:50:35

26

4

范围从 32 到 126 的 ASCII 是可打印的。 127 是 DEL，此后被认为是 extended characters .

为了检查它们是如何存储在 std::string 中的，我写了一个测试程序:

int main ()
{
  string s; // ASCII
  s += "!"; // 33
  s += "A"; // 65
  s += "a"; // 97
  s += "Ã¢"; // 131
  s += "Ã¤"; // 132
  s += "Ã "; // 133

  cout << s << endl;  // Print directly
  for(auto i : s)     // Print after iteration
    cout << i;

  cout << "\ns.size() = " << s.size() << endl; // outputs 9!
}

上面代码中可见的特殊字符实际上看起来不同，这些可以在 online example 中看到(在 vi 中也可见)。

在字符串 s 中，前 3 个正常字符按预期各占 1 个字节。接下来的 3 个扩展字符每个占用 2 个字节。

问题:

尽管是 ASCII(在 0 到 256 范围内)，为什么这 3 个扩展字符占用 2 个字节的空间？
当我们使用基于范围的循环遍历 s 时，它是如何计算出对于普通字符它必须递增 1 次而对于扩展字符它必须递增 2 次!？

[注意:这也可能适用于 C 和其他语言。]

最佳答案

Despite being an ASCII (within range of 0 to 256), why those 3 extended characters take 2 bytes of space?

如果您将“作为 ASCII”定义为仅包含 [0, 256) 范围内的字节，那么所有数据都是 ASCII:[0, 256) 与一个字节能够表示的范围相同，因此所有数据用字节表示的是ASCII，根据你的定义。

问题是您的定义不正确，并且您对数据类型的确定方式的看法不正确；字节序列表示的数据类型不是由这些字节决定的。相反，数据类型是字节序列外部的元数据。 (这并不是说不可能检查字节序列并从统计上确定它可能是哪种数据。)

让我们检查您的代码，牢记以上内容。我从您的源代码的两个版本中提取了相关片段:

s += "Ã¢"; // 131
s += "Ã¤"; // 132

s += "â"; // 131
s += "ä"; // 132

您将这些源代码片段视为在浏览器中呈现的文本，而不是原始二进制数据。您将这两件事呈现为“相同”数据，但实际上它们并不相同。上图是两个不同的字符序列。

然而，这两个文本元素序列有一些有趣的地方:其中一个在使用某种编码方案编码为字节时，在编码时由与另一个文本元素序列相同的字节序列表示使用不同的编码方案转换为字节。也就是说，磁盘上的相同字节序列可能代表两个不同的文本元素序列，取决于编码方案!换句话说，为了弄清楚字节序列是什么意思，我们必须知道它是什么类型的数据，因此需要知道使用什么解码方案。

这就是可能发生的事情。在 vi 中你写道:

s += "â"; // 131
s += "ä"; // 132

您的印象是 vi 会使用扩展 ASCII 表示这些字符，因此使用字节 131 和 132。但这是不正确的。 vi 没有使用扩展的 ASCII，而是使用不同的方案 (UTF-8) 表示这些字符，该方案恰好使用两个字节来表示这些字符中的每一个。

后来，当您在不同的编辑器中打开源代码时，该编辑器错误地假定该文件是扩展的 ASCII 文件并照此显示。由于扩展 ASCII 对每个字符使用一个字节，因此它使用两个字节 vi 来表示每个字符，并为每个字节显示一个字符。

最重要的是，您认为源代码使用的是扩展 ASCII 是错误的，因此您假设这些字符将由值为 131 和 132 的单个字节表示是不正确的。

When we iterate through the s using range based loop, how is it figured out that for normal characters it has to increment 1 time and for extended characters 2 times!?

您的程序没有这样做。在您的 ideone.com 示例中，字符打印正常，因为独立打印出代表这些字符的两个字节可以显示该字符。这是一个清楚说明这一点的示例:live example .

std::cout << "Printed together: '";
std::cout << (char)0xC3;
std::cout << (char)0xA2;
std::cout << "'\n";

std::cout << "Printed separated: '";
std::cout << (char)0xC3;
std::cout << '/';
std::cout << (char)0xA2;
std::cout << "'\n";

Printed together: 'â'
Printed separated: '�/�'

“�”字符是遇到无效编码时显示的字符。

如果您问如何编写执行此操作的程序，答案是使用了解所用编码细节的代码。要么获得一个理解 UTF-8 的库，要么自己阅读 UTF-8 规范。

您还应该记住，这里使用 UTF-8 只是因为此编辑器和编译器默认使用 UTF-8。如果你用不同的编辑器编写相同的代码并用不同的编译器编译它，编码可能完全不同；假设代码是 UTF-8 可能与您之前假设代码是扩展 ASCII 一样错误。

关于c++ - 为什么扩展的 ASCII(特殊)字符需要 2 个字节才能存储？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28966141/

26

4

0

文章推荐： c# - 是否可以在 Visual Studio 中编译之前立即添加 C# 类

文章推荐： c++ - C++有自初始化指针吗

文章推荐： c# - 使用相同的 SQL 生成输出将 T-SQL 转换为 Fluent Linq C#

文章推荐： c++ - 在 C++ 中创建另一个类中的类的对象

必须加载 PHP 扩展 "curl"。必须加载 PHP 扩展 "soap"
我是 magento 的新手，目前我在 magento 安装期间遇到“必须加载 PHP 扩展 curl ”错误。你能帮帮我吗？最佳答案如果您的服务器上没有安装 curl，您可以键入以下命令之一来安
php - $ Composer 找不到 mongodb 扩展，需要 Mongodb 扩展
我在 macOS Mojave/macOS Big Sur/macOS Monterey/macOS Ventura 上使用最新的 php 版本 7.2 并收到类似错误 $composer requ
java - Integer 扩展 Number 但无法对
这个问题已经有答案了: Why generic type is not applicable for argument extends super class for both? (5 个回答) 已关
javascript - 在默认 NightWatch 浏览器实例中启用和修改 Chome 扩展(特别是 ModHeader 扩展)
我正在使用 NightWatch.js 并进行一些 UI 测试，我想用一些额外的 desiredCapabilities 启动默认浏览器实例(即启用扩展并应用一些特定值)。 p> 注意:我可以执行这些
java - 扩展 server_name(SNI 扩展)未随 JAVA 8 一起发送
有人知道为什么我在 java 8 中使用此代码时没有服务器扩展名称吗: try { URL url = new URL(urlString); URLC
dart - 扩展 dart 类类似于 js 原型(prototype)或 swift 扩展
扩展提供给我的类(class)。为现有的类提供新功能。或扩展现有的mixin s 或虚拟类，任何东西都可以工作。也许是这样的: class FlatButton {} // maybe no
python - 使用 c 扩展 python/django，使用 apache 扩展 mod_wsgi
我有一个关于使用 c 代码和 mod_wsgi 扩展 python 的问题。我在 apache 服务器中有一个 django 应用程序，它查询 postgresql 数据库以生成报告。在某些报告中，
google-chrome - testcafe 是否支持加载任何 crx 扩展，并使用 chrome 浏览器中的自定义 header 值设置 ModHeader 扩展
testcafe支持在Chrome浏览器中加载crx扩展吗？如果是这样，请告诉我需要尝试什么方法。我尝试了下面的代码，但没有成功 await t.eval(new Function(fs.read
java - 在 Java 中，类 B 扩展 A 和类 B 扩展 A 之间有什么区别
这个问题已经有答案了: What is a raw type and why shouldn't we use it? (16 个回答) 已关闭 3 年前。有什么区别: // 1 class A c
javascript - 单击 chrome 扩展 DOM(popup.html) 上的按钮时，扩展 DOM 关闭并且不会在 popup.js 中调用 onclick 函数
我正在编写一个 chrome 扩展来记录单击开始按钮后触发的请求。这是我的文件:1. list .json { "manifest_version": 2, "name": "recorde
大语言模型提示技巧（七）－扩展
扩展是将较短的文本，例如一组提示或主题列表，输入到大型语言模型中，让模型生成更长的文本。我们可以利用这个特性让大语言模型生成基于某个主题的电子邮件或小论文。通过这种方式使用大语言模型，可以为工作与生活
Vim # 扩展
我每天都在使用 vim 和 perforce 现在我的问题是，如果我想查看 perforce 文件修订版，则从命令模式下的 vim :!p4 打印文件#1 vim 试图让我获得缓冲区 #1。有没有办法
NUnit 扩展
大家好，我有一个关于 NUnit 扩展(2.5.10)的问题。我想做的是向数据库。为此，我使用 Event 创建了 NUnit 扩展听众。我遇到的问题是公共(public)无效 TestFin
扩展。通过单击不在窗口中关闭弹出窗口
我有弹出窗口，而不是模态窗口。如何通过单击页面的其他部分(不在窗口中)来关闭此窗口？最佳答案像这样的东西: function closeWin(e, t) { var el = win.
C# 扩展
我通常非常谨慎地使用扩展方法。当我确实觉得有必要编写一个扩展方法时，有时我想重载该方法。我的问题是，您对调用其他扩展方法的扩展方法有何看法？不好的做法？感觉不对，但我无法真正定义原因。例如，第二个
16、扩展 Ant
扩展 Ant Ant带有一组预定义的任务，但是你可以创建自己的任务，如下面的例子所示。定制Ant 任务应扩展 org.apache.tools.ant.Task 类，同时也应该拓展 execut
用于重定向文件的 Firefox 扩展
我想要一个重定向所有请求的扩展: http://website.com/foo.js 到: http://localhost/myfoo.js 我无法使用主机文件将主机从 website.com 编辑
c++ - 扩展 QChartView
对于为什么 QChartView 放在 QTabWidget 中时会扩展，我有点迷惑。这是 QChartView 未展开(因为它被隐藏)时应用程序的图片。应用程序的黑色部分是 QOpenGLWid
oracle - 如何避免 OR 扩展？
如果在连接条件中使用 OR 运算符，如何优化以下查询以避免 SQL 调优方面的 OR 扩展？ SELECT t1.A, t2.B, t1.C, t1.D, t2.E FROM t1 LEFT J
.net - 扩展/插件通信架构
一旦加载插件的问题得到解决(在 .NET 中通过 MEF 的情况下)，下一步要解决的是与它们的通信。简单的方法是实现一个接口(interface)，使用插件实现，但有时插件只需要扩展应用程序的工作方式

首页

博学

6Ren·AI

商城

c++ - 为什么扩展的 ASCII(特殊)字符需要 2 个字节才能存储？