- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我在试验 UTF-8 和 Qt 时遇到了一个奇怪的问题,所以我进行了调查。我创建了一个简单的程序,它以 const char[]
文字打印字节:
#include <cstdio>
const char* koshka = "кошка";
const char* utf8_koshka = u8"кошка";
void printhex(const char* str)
{
for (; *str; ++str)
{
printf("%02X ", *str & 0xFF);
}
puts("");
}
int main(int argc, char *argv[])
{
printhex(koshka);
printhex(utf8_koshka);
return 0;
}
如果我们将文件保存为带有 BOM 的 UTF-8,然后从 Visual Studio 2015 运行它,将打印:
3F 3F 3F 3F 3F
D0 BA D0 BE D1 88 D0 BA D0 B0
虽然我不太明白第一个字符串是从哪里来的,但根据 this UTF-8 encoding table,第二个字符串应该是这样的.
如果完全相同的代码被保存为没有BOM的UTF-8,这是输出:
D0 BA D0 BE D1 88 D0 BA D0 B0
C3 90 C2 BA C3 90 C2 BE C3 91 CB 86 C3 90 C2 BA C3 90 C2 B0
因此,虽然它导致未加前缀的 const char[]
文字以 UTF8 格式保存在二进制文件中,但由于某种原因它破坏了 u8
前缀。
但是,如果我们使用 #pragma execution_character_set("utf-8")
强制执行字符集,则两个字符串都打印为 D0 BA D0 BE D1 88 D0 BA D0 B0
两种情况(UTF-8 带和不带 BOM)。
我使用 Notepad++ 在编码之间进行转换。
这是怎么回事?
编辑:
艾伦的回答解释了这种行为的原因,但我想补充一句警告。我在使用 Qt Creator 开发 Qt 5.5.1 应用程序时遇到了这个问题。在 5.5.1 中,QString (const char*)
构造函数将假定给定的字符串编码为 UTF-8,因此最终会调用 QString::fromUtf8
来构造对象。但是,Qt Creator(默认情况下)将每个文件保存为没有 BOM 的 UTF;这会导致 MSVC 将源输入错误解释为 MBCS,正是在这种情况下发生的情况,因此在默认设置下,以下将起作用:
QMessageBox::information(0, "test", "кошка");
这会失败(mojibake):
QMessageBox::information(0, "test", u8"кошка");
解决方案是在工具 -> 选项 -> 文本编辑器中启用 BOM。请注意,这仅适用于 MSVC 2015(或实际上是 14.0);旧版本较少/没有 C++11 支持,u8
根本不存在,因此如果您在旧版本上使用 Qt,最好的选择是依赖编译器因缺少 BOM 而感到困惑。
最佳答案
编译器不知道文件的编码是什么。它试图通过查看输入的前缀来猜测。如果它看到 UTF-8 编码的 BOM,则它假定它正在处理 UTF-8。如果没有它,并且没有任何明显的 UTF-16 字符,它默认为其他内容。 (ISO Latin 1?无论本地常见的 MBCS 是什么?)
没有 BOM,编译器无法确定您的输入是 UTF-8 编码的,因此假定它不是。
然后它将 UTF-8 编码的每个字节视为单个字符;对于简单文字,它被逐字复制,而对于 u8 字符串,它被编码为 UTF-8,给出了您看到的双重编码。
唯一的解决办法似乎是强制BOM;或者,使用 Windows 平台真正喜欢的 UTF-16。
另见 Specification of source charset encoding in MSVC++, like gcc "-finput-charset=CharSet" .
关于c++ - MSVC14 根据源是 UTF-8 还是 UTF-8 BOM 来区别对待 u8 前缀,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33583263/
发布以下查询时,出现错误响应 {"error":{"root_cause":[{"type":"parsing_exception","reason":"[prefix] query does not
我对 Python 和 Django 真的很陌生......我想做的是: 在 Mac OS 10.6.8 上安装 Python 2.7 安装 pip 安装 Django 安装 virtualenvwr
前缀表达式 前缀表达式又称波兰式,前缀表达式的运算符位于操作数之前。 例如: ( 3 + 4 ) × 5 − 6 (3+4)×5-6(3+4)×5−6 对应的前缀表达式就是 - × + 3 4 5 6
如何在Intel C编译器中定义俄语字符串? 在MSVS 2008中,我这样做: _wsetlocale(LC_ALL, L"Russian"); wprintf(L"текст"); 而且有效。 在
这是我到目前为止所得到的: SPECS = $(shell find spec -iname "*_spec.js") spec: @NODE_ENV=test \ @NODE_PAT
我看到了下面的前缀::它代表什么? :abc 是一个关键字,但是 ::abc 是什么? 谢谢,穆尔塔扎 最佳答案 假设当前命名空间是my.app。然后, ::x 是 :my.app/x 的阅读器简写,
我为我的 discord 创建了一个建议功能,用户可以说 +suggest(建议),它会自动发布到另一个 channel 。 有些事情我需要帮助: 将“建议由用户制作”放入标题中,而不是在单独的行中。
#include int main() { int a=1; printf("%d",(++a)++); return 0; } 此代码出现错误 error: invalid lvalue in
我在使用前缀和后缀运算符对数字执行减法时遇到了一个小问题。这是我的程序: public class postfixprefix { public static void main (Strin
当我在 Android native 浏览器中运行 HTML5 兼容性测试时,它会看到 IndexedDB 支持标记为“Prefixed”,而在 Chrome 和其他浏览器中则标记为“Yes”。我知道
我试过重载运算符--前缀,但我有错误,有人帮忙吗? #include #include "Circulo.h" using namespace std; int main() { //par
我正在尝试在我正在制作的这个论坛上创建一个引用功能,当我按下引用时,我只需用 Markdown 填充 textarea ,但唯一的事情是我需要在每行的 markdown 前面加上 > 前缀,这样它就是
friend 之间打赌。sum 变量定义为全局变量。我们有 2 个线程在循环 1..100 上运行并在每个循环中将 sum 递增 1。 打印什么?“和=”? int sum = 0; void fun
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Post Increment and Pre Increment concept? 谁能明确解释前缀增量与后
从模板类继承时,我需要在派生类中访问的所有基类成员前面加上this: template struct X{ int foo; void bar(); }; template struct
据我所知,在 C++ 中,在同一类的函数成员中调用另一个成员函数不需要“this”前缀,因为它是隐式的。但是,在使用函数指针的特定情况下,编译器需要它。仅当我通过 func 指针为调用包含“this”
例如,考虑以下名称冲突的地方 nest1 : template class nest1 {}; class cls { public: template class nest1 {};
我无法理解下面一段特定代码的逻辑。 int i[] = { 21, 4, -17, 45 }; int* i_ptr = i; std::cout << (*i_ptr)++ << std::endl
有人能给我指出正确的方向吗,我目前有一个可搜索的数据库,但遇到了按标题搜索的问题。 如果标题以“The”开头,那么显然标题将位于“T”部分,避免搜索“The”的好方法是什么?我应该连接两个字段来显示标
我在 2 小时前创建了一个新项目。以与我的旧(不同)项目相同的方式配置它,一切正常。 在我的 podfile 中我有: pod 'CocoaLumberjack', '2.0.0-rc2' 如果我在
我是一名优秀的程序员,十分优秀!