gpt4 book ai didi

c++ - MSVC14 根据源是 UTF-8 还是 UTF-8 BOM 来区别对待 u8 前缀

转载 作者:搜寻专家 更新时间:2023-10-31 02:19:20 25 4
gpt4 key购买 nike

我在试验 UTF-8 和 Qt 时遇到了一个奇怪的问题,所以我进行了调查。我创建了一个简单的程序,它以 const char[] 文字打印字节:

#include <cstdio>

const char* koshka = "кошка";
const char* utf8_koshka = u8"кошка";

void printhex(const char* str)
{
for (; *str; ++str)
{
printf("%02X ", *str & 0xFF);
}
puts("");
}

int main(int argc, char *argv[])
{
printhex(koshka);
printhex(utf8_koshka);

return 0;
}

如果我们将文件保存为带有 BOM 的 UTF-8,然后从 Visual Studio 2015 运行它,将打印:

3F 3F 3F 3F 3F
D0 BA D0 BE D1 88 D0 BA D0 B0

虽然我不太明白第一个字符串是从哪里来的,但根据 this UTF-8 encoding table,第二个字符串应该是这样的.

如果完全相同的代码被保存为没有BOM的UTF-8,这是输出:

D0 BA D0 BE D1 88 D0 BA D0 B0 
C3 90 C2 BA C3 90 C2 BE C3 91 CB 86 C3 90 C2 BA C3 90 C2 B0

因此,虽然它导致未加前缀的 const char[] 文字以 UTF8 格式保存在二进制文件中,但由于某种原因它破坏了 u8 前缀。

但是,如果我们使用 #pragma execution_character_set("utf-8") 强制执行字符集,则两个字符串都打印为 D0 BA D0 BE D1 88 D0 BA D0 B0 两种情况(UTF-8 带和不带 BOM)。

我使用 Notepad++ 在编码之间进行转换。

这是怎么回事?


编辑:

艾伦的回答解释了这种行为的原因,但我想补充一句警告。我在使用 Qt Creator 开发 Qt 5.5.1 应用程序时遇到了这个问题。在 5.5.1 中,QString (const char*) 构造函数将假定给定的字符串编码为 UTF-8,因此最终会调用 QString::fromUtf8 来构造对象。但是,Qt Creator(默认情况下)将每个文件保存为没有 BOM 的 UTF;这会导致 MSVC 将源输入错误解释为 MBCS,正是在这种情况下发生的情况,因此在默认设置下,以下将起作用:

QMessageBox::information(0, "test", "кошка");

这会失败(mojibake):

QMessageBox::information(0, "test", u8"кошка");

解决方案是在工具 -> 选项 -> 文本编辑器中启用 BOM。请注意,这仅适用于 MSVC 2015(或实际上是 14.0);旧版本较少/没有 C++11 支持,u8 根本不存在,因此如果您在旧版本上使用 Qt,最好的选择是依赖编译器因缺少 BOM 而感到困惑。

最佳答案

编译器不知道文件的编码是什么。它试图通过查看输入的前缀来猜测。如果它看到 UTF-8 编码的 BOM,则它假定它正在处理 UTF-8。如果没有它,并且没有任何明显的 UTF-16 字符,它默认为其他内容。 (ISO Latin 1?无论本地常见的 MBCS 是什么?)

没有 BOM,编译器无法确定您的输入是 UTF-8 编码的,因此假定它不是。

然后它将 UTF-8 编码的每个字节视为单个字符;对于简单文字,它被逐字复制,而对于 u8 字符串,它被编码为 UTF-8,给出了您看到的双重编码。

唯一的解决办法似乎是强制BOM;或者,使用 Windows 平台真正喜欢的 UTF-16。

另见 Specification of source charset encoding in MSVC++, like gcc "-finput-charset=CharSet" .

关于c++ - MSVC14 根据源是 UTF-8 还是 UTF-8 BOM 来区别对待 u8 前缀,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33583263/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com