gpt4 book ai didi

c++ - 避免/设置 std::cout/std::cerr 的字符集转换/编码

转载 作者:塔克拉玛干 更新时间:2023-11-03 07:09:35 24 4
gpt4 key购买 nike

一般问题

写入std::cout时是否有可能避免字符集转换?/std::cerr ?我做了类似的事情

std::cout << "Ȋ'ɱ ȁ ȖȚƑ-8 Șțȓȉɳɠ (in UTF-8 encoding)" << std::endl;

我希望将输出写入维护 UTF-8 编码的控制台(我的控制台使用 UTF-8 编码,但我的 C++ 标准库 GNUs libstdc++ 出于某种原因不这么认为)。

如果没有可能禁止字符编码转换:我可以设置std::cout吗?使用 UTF-8,所以它希望自己知道不需要转换?


背景

我使用了 Windows API 函数 SetConsoleOutputCP(CP_UTF8);将控制台的编码设置为 UTF-8。问题似乎是 UTF-8 与通常用于我的系统区域设置和 libstdc++ 的代码页不匹配。因此设置std::cout使用默认的 ANSI 代码页而不是正确识别开关。



编辑:原来我误解了这个问题,而解决方案实际上要简单得多(或者不是......)。

"Ȋ'ɱ ȁ ȖȚƑ-8 Șțȓȉɳɠ (in UTF-8 encoding)"只是用作占位符(我不应该使用它,因为它隐藏了实际问题)。

在我的真实代码中,“UTF-8 字符串”是一个 Glib::ustring ,根据定义,它们是 UTF-8 编码的。但是我没有意识到输出运算符 <<defined in glibmm以强制字符集转换的方式。
它使用 g_locale_from_utf8()在内部又使用 g_get_charset() 确定目标编码。

不幸的是 g_get_charset() 的文档州

On Windows the character set returned by this function is the so-called system default ANSI code-page. That is the character set used by the "narrow" versions of C library and Win32 functions that handle file names. It might be different from the character set used by the C library's current locale.

这只是意味着 glib 既不会关心我设置的 C 语言环境,也不会尝试确定我的控制台实际使用的编码,并且基本上不可能使用许多 glib 函数来创建 UTF-8 输出。 (事实上​​,这也意味着这个问题与触发我的另一个问题的原因完全相同:Force UTF-8 encoding in glib's "g_print()")。

我目前正在考虑这是 glib 中的一个错误(或者充其量是一个严重的限制),并且可能会在问题跟踪器中为此打开一个报告。

最佳答案

你看错了,因为你在谈论一个字符串文字,包含在你的源代码中(而不是从你的键盘输入),为了让它正常工作你必须告诉编译器正在使用哪种编码用于所有这些字符(我认为第一个提到非 ascii 字符集的 c++ 规范是 c++11)

因为您实际使用的是 UTF 字符集,所以您应该至少将它们全部编码为 wchar_t 才能被视为这样,或者在翻译器中达成一致(可能会发生这种情况)当用作字符串文字时,UTF 字符将采用 UTF-8 编码。这通常意味着它们将以 UTF-8 格式打印,如果您使用符合 UTF-8 标准的控制台设备,它们将可以正常打印,没有任何其他问题。

我知道有一个 gcc 选项可以指定源文件的字符串文字中使用的编码,clang 中也应该有另一个选项。检查文档,这可能会解决任何问题。但最好的可移植性是不依赖于代码集或使用像 ISO-10646 这样的代码集(但要知道完整的 utf 覆盖范围不仅是 utf-8,utf-8 只是一种方式编码 UTF 字符,因此,它只是表示 UTF 字符的一种方式)

另一个问题是,C++11 不引用 UTF 联盟标准,而是引用 ISO 对应标准(我认为是 ISO-10646),两者相似但不相等,字符编码相似, 但不相等(例如,ISO 的代码大小为 32 位,而 Unicode 联盟的代码大小为 21 位)。它们之间的这些差异和其他差异使得在 C++ 中使用一些技巧并在考虑严格的 Unicode 时产生问题。

当然,要在 UTF-8 终端上输出正确的字符串,您必须先将 UTF 代码编码为 utf-8 格式,然后再将它们发送到终端。这是真的,即使您已经在字符串对象中将它们编码为 utf-8。如果你说它们已经是 utf-8 那么根本不会进行任何转换......但是如果你不说,通常的考虑是你使用的是普通的 utf 代码(但限制为 8bit代码),将自己限制为八位代码,并在打印前将它们编码为 utf-8...这会导致编码错误(双重编码),如 ú(unicode code \u00fa ) 应该用 utf-8 编码为字符序列 { 0xc3, 0xba };,但是如果你不说字符串文字确实是 utf-8,那么这两个字符都会被处理为 Â(\u00c3) 和 º(\u00ba) 字符的两个字符代码,并且将被重新编码为 { 0xc3, 0x83, 0xc2, 0xba }; 这将错误地显示它们。这是非常常见的错误,当某些编码不正确时,您应该已经看到了。样本来源here .

关于c++ - 避免/设置 std::cout/std::cerr 的字符集转换/编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43925932/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com