gpt4 book ai didi

c++ - 为什么我们从 MultiByte 转换为 WideChar?

转载 作者:可可西里 更新时间:2023-11-01 11:15:50 24 4
gpt4 key购买 nike

我习惯于处理 ASCII 字符串,但现在使用 UNICODE 我对某些术语感到非常困惑:

什么是多字节字符,什么是 widechar有什么不同?
多字节是指内存中包含多于一个字节的字符吗和widechar只是一种数据类型来表示吗?

  • 为什么我们从 MultiByteToWideChar 转换和 WideCharToMultiByte ?

  • 如果我声明如下:
    wchar_t* wcMsg = L"مرحبا";
    MessageBoxW(0, wcMsg, 0, 0);

    如果我定义了 UNICODE,它会正确打印消息但是为什么我没有从 WideCharToMultiByte 在这里转换??
  • 我的项目中的字符集有什么区别:_MBCSUNICODE ?
  • MSDN 让我对“Windows API”感到困惑的最后一件事是 UTF-16。

  • 任何人都可以用一些例子来解释。一个很好的澄清真的很感激。

    最佳答案

    ASCII 字符串的字符宽度为 1 个字节(通常为 8 位,很少为 7、9 或其他位宽)。这是当时的遗留问题,当时内存大小非常小且昂贵,而且处理器通常每条指令只能处理一个字节。

    很容易想象,一个字节远远不足以存储世界上所有可用的字形。仅中文就有 87.000 个字形。一个字符通常只能处理 256 个字形(8 位字节)。 ASCII仅定义 96 个字形(加上较低的 32 个字符,它们被定义为不可打印的控制字符),这使其成为 7 位字符集。这对于英文上下字符、数字以及一些标点符号和其他字形来说已经足够了。 ASCII 不使用公共(public) 8 位字节中的最高位。

    要处理多于一个字节可以容纳的字形,一种方法是将基本字形存储在一个字节中,将其他常见字形存储在两个字节中,将很少使用的字形存储在 3 个甚至更多字节中。这种方法被称为Multi byte char set or Variable-width encoding .一个非常常见的例子是 UTF 8 , 一个字符使用 1 到 4 个字节。它将 ASCII 字符集存储在一个字节中(因此它也向后兼容 ASCII)。最高位被定义为一个开关:如果它被设置,其他字节将跟随。这同样适用于以下字节,从而形成最多 4 个字节的“链”。
    可变宽度字符集的优点是:

  • 向后兼容 7 位 ASCII 字符集
  • 内存友好 - 使用尽可能少的内存

  • 缺点是:
  • 处理起来更困难,处理器也很昂贵。您不能简单地迭代一个字符串并假设每个 myString[n]提供一个字形;相反,如果后面有更多字节,您必须评估每个字节。

  • 另一种方法是将每个字符存储在由 n 个字节组成的固定长度的字中,该字的宽度足以容纳所有可能的字形。这称为固定宽度字符集;所有字符都具有相同的宽度。一个众所周知的例子是 UTF32 .它是 32 位宽,可以在一个字中存储所有可能的字符。固定宽度字符集的优点和缺点显然与可变宽度字符集相反:内存繁重但更容易迭代。

    但是微软甚至在 UTF32 可用之前就选择了他们的原生字符集:他们使用 UTF16作为 Windows 的字符集,它使用至少 2 个字节(16 位)的字长。这足以存储比单字节字符集更多的字形,但不是全部。考虑到这一点,微软今天区分“多字节”和“Unicode”有点误导,因为他们的 unicode 实现也是多字节字符集——只是一个字形的最小大小更大的字符集。有人说这是一个很好的妥协,有人说这是两全其美的——无论如何,事情就是这样。而当时(Windows NT)它是唯一可用的Unicode字符集,从这个角度来看,当时他们对多字符和Unicode的区分是正确的(参见Raymond Chen的评论)

    当然,如果您想将一种编码(假设为 UTF8)的字符串转换为另一种编码(假设为 UTF16),则必须对它们进行转换。就是这样 MultiByteToWideChar为你做,和 WideCharToMultiByte反之亦然。还有一些其他的转换函数和库。

    这种转换花费了很多时间,因此结论是:如果您大量使用字符串和系统调用,为了提高性能,您应该使用操作系统的 native 字符集,在您的情况下是 UTF16。

    所以对于你的字符串处理你应该选择 wchar_t ,在 Windows 的情况下意味着 UTF16。不幸的是 wchar_t的宽度可能因编译器而异;在 Unix 下它通常是 UTF32,在 Windows 下它是 UTF16。
    _MBCS是一个自动预处理器定义,它告诉您您已将字符集定义为多字节, UNICODE告诉您已将其设置为 UTF16。

    你可以写
    wchar_t* wcMsg = L"مرحبا";
    MessageBoxW(0, wcMsg, 0, 0);

    即使在没有 UNICODE 的程序中定义集。 L"前缀定义,您的字符串是 UNICODE (wide char) 字符串,你可以用它调用系统函数。

    不幸的是你不能写
    char* msg = u8"مرحبا";
    MessageBoxA(0, msg, 0, 0);

    C++11 中改进了字符集支持,因此您还可以通过前缀 u8 将字符串定义为 UTF8。 .但是带有“A”后缀的 Windows 函数不理解 UTF8,至少在 Windows 10 Build 17035 之前(参见 tambre 的评论)(另请参见 https://stackoverflow.com/a/504789/2328447 )
    这也建议在 Windows/Visual Studio 下使用 UTF16 aka UNICODE。

    将您的项目设置为“使用多字节字符集”或“使用 Unicode 字符集”也会更改许多其他字符相关定义:最常见的是宏 TCHAR , _T()以及所有不带后缀的依赖于字符串的 Windows 函数,例如 MessageBox() (没有 WA 后缀)
    如果您将项目设置为“使用多字节字符集”, TCHAR将扩展为 char , _T()将扩展为空,Windows 函数将获得 A附后缀。
    如果您将项目设置为“使用 Unicode 字符集”, TCHAR将扩展为 wchar_t , _T()将扩展到 L前缀,Windows 函数将得到 W附后缀。

    这意味着,写作
    TCHAR* msg = _T("Hello");
    MessageBox(0, msg, 0, 0);

    将使用多字节字符集或 unicode 集编译两者。您可以在 MSDN 上找到有关这些主题的综合指南。 .

    很遗憾
    TCHAR* msg = _T("مرحبا");
    MessageBox(0, msg, 0, 0);

    选择“使用多字节字符集”时仍然不起作用 - Windows 函数仍然不支持 UTF8,您甚至会收到一些编译器警告,因为您定义了包含在字符串中的 unicode 字符,而不是标记为 Unicode( _T() 不会扩展为 u8 )

    关于c++ - 为什么我们从 MultiByte 转换为 WideChar?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47237696/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com