c++ - 为什么我们从 MultiByte 转换为 WideChar？-6ren

c++ - 为什么我们从 MultiByte 转换为 WideChar？

转载作者：可可西里更新时间：2023-11-01 11:15:50

25

4

我习惯于处理 ASCII 字符串，但现在使用 UNICODE 我对某些术语感到非常困惑:

什么是多字节字符，什么是 widechar有什么不同？
多字节是指内存中包含多于一个字节的字符吗和widechar只是一种数据类型来表示吗？

为什么我们从 MultiByteToWideChar 转换和 WideCharToMultiByte ?

如果我声明如下:

wchar_t* wcMsg = L"مرحبا";
MessageBoxW(0, wcMsg, 0, 0);

如果我定义了 UNICODE，它会正确打印消息但是为什么我没有从 WideCharToMultiByte 在这里转换??

我的项目中的字符集有什么区别:_MBCS和 UNICODE ?

MSDN 让我对“Windows API”感到困惑的最后一件事是 UTF-16。

任何人都可以用一些例子来解释。一个很好的澄清真的很感激。

最佳答案

ASCII 字符串的字符宽度为 1 个字节(通常为 8 位，很少为 7、9 或其他位宽)。这是当时的遗留问题，当时内存大小非常小且昂贵，而且处理器通常每条指令只能处理一个字节。

很容易想象，一个字节远远不足以存储世界上所有可用的字形。仅中文就有 87.000 个字形。一个字符通常只能处理 256 个字形(8 位字节)。 ASCII仅定义 96 个字形(加上较低的 32 个字符，它们被定义为不可打印的控制字符)，这使其成为 7 位字符集。这对于英文上下字符、数字以及一些标点符号和其他字形来说已经足够了。 ASCII 不使用公共(public) 8 位字节中的最高位。

要处理多于一个字节可以容纳的字形，一种方法是将基本字形存储在一个字节中，将其他常见字形存储在两个字节中，将很少使用的字形存储在 3 个甚至更多字节中。这种方法被称为Multi byte char set or Variable-width encoding .一个非常常见的例子是 UTF 8 , 一个字符使用 1 到 4 个字节。它将 ASCII 字符集存储在一个字节中(因此它也向后兼容 ASCII)。最高位被定义为一个开关:如果它被设置，其他字节将跟随。这同样适用于以下字节，从而形成最多 4 个字节的“链”。
可变宽度字符集的优点是:

向后兼容 7 位 ASCII 字符集

内存友好 - 使用尽可能少的内存

缺点是:

处理起来更困难，处理器也很昂贵。您不能简单地迭代一个字符串并假设每个 myString[n]提供一个字形；相反，如果后面有更多字节，您必须评估每个字节。

另一种方法是将每个字符存储在由 n 个字节组成的固定长度的字中，该字的宽度足以容纳所有可能的字形。这称为固定宽度字符集；所有字符都具有相同的宽度。一个众所周知的例子是 UTF32 .它是 32 位宽，可以在一个字中存储所有可能的字符。固定宽度字符集的优点和缺点显然与可变宽度字符集相反:内存繁重但更容易迭代。

但是微软甚至在 UTF32 可用之前就选择了他们的原生字符集:他们使用 UTF16作为 Windows 的字符集，它使用至少 2 个字节(16 位)的字长。这足以存储比单字节字符集更多的字形，但不是全部。考虑到这一点，微软今天区分“多字节”和“Unicode”有点误导，因为他们的 unicode 实现也是多字节字符集——只是一个字形的最小大小更大的字符集。有人说这是一个很好的妥协，有人说这是两全其美的——无论如何，事情就是这样。而当时(Windows NT)它是唯一可用的Unicode字符集，从这个角度来看，当时他们对多字符和Unicode的区分是正确的(参见Raymond Chen的评论)

当然，如果您想将一种编码(假设为 UTF8)的字符串转换为另一种编码(假设为 UTF16)，则必须对它们进行转换。就是这样 MultiByteToWideChar为你做，和 WideCharToMultiByte反之亦然。还有一些其他的转换函数和库。

这种转换花费了很多时间，因此结论是:如果您大量使用字符串和系统调用，为了提高性能，您应该使用操作系统的 native 字符集，在您的情况下是 UTF16。

所以对于你的字符串处理你应该选择 wchar_t ，在 Windows 的情况下意味着 UTF16。不幸的是 wchar_t的宽度可能因编译器而异；在 Unix 下它通常是 UTF32，在 Windows 下它是 UTF16。
_MBCS是一个自动预处理器定义，它告诉您您已将字符集定义为多字节， UNICODE告诉您已将其设置为 UTF16。

你可以写

wchar_t* wcMsg = L"مرحبا";
MessageBoxW(0, wcMsg, 0, 0);

即使在没有 UNICODE 的程序中定义集。 L"前缀定义，您的字符串是 UNICODE (wide char) 字符串，你可以用它调用系统函数。

不幸的是你不能写

char* msg = u8"مرحبا";
MessageBoxA(0, msg, 0, 0);

C++11 中改进了字符集支持，因此您还可以通过前缀 u8 将字符串定义为 UTF8。 .但是带有“A”后缀的 Windows 函数不理解 UTF8，至少在 Windows 10 Build 17035 之前(参见 tambre 的评论)(另请参见 https://stackoverflow.com/a/504789/2328447 )
这也建议在 Windows/Visual Studio 下使用 UTF16 aka UNICODE。

将您的项目设置为“使用多字节字符集”或“使用 Unicode 字符集”也会更改许多其他字符相关定义:最常见的是宏 TCHAR , _T()以及所有不带后缀的依赖于字符串的 Windows 函数，例如 MessageBox() (没有 W 或 A 后缀)
如果您将项目设置为“使用多字节字符集”， TCHAR将扩展为 char , _T()将扩展为空，Windows 函数将获得 A附后缀。
如果您将项目设置为“使用 Unicode 字符集”， TCHAR将扩展为 wchar_t , _T()将扩展到 L前缀，Windows 函数将得到 W附后缀。

这意味着，写作

TCHAR* msg = _T("Hello");
MessageBox(0, msg, 0, 0);

将使用多字节字符集或 unicode 集编译两者。您可以在 MSDN 上找到有关这些主题的综合指南。 .

很遗憾

TCHAR* msg = _T("مرحبا");
MessageBox(0, msg, 0, 0);

选择“使用多字节字符集”时仍然不起作用 - Windows 函数仍然不支持 UTF8，您甚至会收到一些编译器警告，因为您定义了包含在字符串中的 unicode 字符，而不是标记为 Unicode( _T() 不会扩展为 u8 )

关于c++ - 为什么我们从 MultiByte 转换为 WideChar？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47237696/

25

4

0

文章推荐： windows - 为 Windows CE 安装 Docker 时出现问题

文章推荐： windows - 调用 GetProcAddress 时出现错误 127

文章推荐： windows - 没有图标的QMessageBox

文章推荐： redis - 在 Pub/Sub (Redis) 中查找源发布者

php - zend.multibyte 指令到底有什么影响？
多年来，我的所有 PHP 脚本都使用不带 BOM 的 UTF8 编码，它们工作正常。今天我发现有一个名为zend.multibyte 的核心指令，它默认为零(禁用)。那么，如果它不影响脚本解析..它
c++ - 在库中混合使用 Unicode/Multibyte 版本
这里有 3 个库支持以下字符集: Lib A (支持Unicode和Multibyte) Lib B(仅多字节) Lib C(仅 Unicode) A 有一个函数，在 Unicode 和多字节的情况下
c++ - 为什么我们从 MultiByte 转换为 WideChar？
我习惯于处理 ASCII 字符串，但现在使用 UNICODE 我对某些术语感到非常困惑: 什么是多字节字符，什么是 widechar有什么不同？多字节是指内存中包含多于一个字节的字符吗和widech
sql - ORA-29275 : partial multibyte character
我的输入数据来自一个平面文件，该文件在一列中包含英文、日文、中文字符。我将这些值加载到架构定义为 VARCHAR2(250 CHAR) 的临时表列中，主表列的定义为 VARCHAR2(250)，我无
python - 解码shift-jis : "illegal multibyte sequence"
我正在尝试解码 shift-jis 编码的字符串，如下所示: string.decode('shift-jis').encode('utf-8') 能够在我的程序中查看它。当我遇到 2 个 shif
ruby - 类型错误:无法访问 Mail::Multibyte::Chars
我最近更新了 Gemfile 上的 gem 并开始获得: irb(main):002:0> User.new(:email => "foob@gmail.com").valid? TypeError:
php - htmlentities 'Invalid Multibyte Sequence' 错误
在尝试通过 PHP 的 htmlentities 函数运行字符串时，我遇到了一些“无效的多字节序列”错误。有没有办法在调用函数之前清理字符串以防止发生此错误？最佳答案从 PHP 5.4 开始，您应
php - htmlspecialchars() : Invalid multibyte sequence in argument
我在我的本地站点中遇到此错误。 Warning (2): htmlspecialchars(): Invalid multibyte sequence in argument in [/var/www
read_excel 正确导入文件，但尝试将其放入列表时出现 "invalid multibyte string"错误
当我从文件 Posti-Letto-Istat.xls 中读取任何表格时与 read_excel来自 readxl包我没有问题: library(readxl) pl_istat1 = 8 x64 (
Java JNI : Passing multibyte characters from java to c
我又一次在 java natve 接口(interface)上胡思乱想，遇到了另一个有趣的问题。我正在通过 jni 将文件路径发送到 c，然后执行一些 I/O。所以我遇到的最常见的字符是 'äåö'。
c++ - 为什么 mbstowcs 返回 "invalid multibyte character"
"קמ"ד חיר!" 是从 gdb 中的变量打印粘贴的输入字符串拷贝。调用 mbstowcs 返回 -1，另一个输入为 NULL。关于问题出在哪里/如何解决这个问题有什么想法吗？ "\327\247
python - 读取文本文件时如何修复此 cp950 "illegal multibyte sequence"UnicodeDecodeError？
我的老师教我们如何使用“exec”，但我得到了一个错误: UnicodeDecodeError: 'cp950' codec can't decode byte 0xe6 in position 18
ruby - 正则表达式错误 : too many multibyte code ranges are specified
我有一个需要匹配一堆字符的正则表达式。代码在 ruby 1.8.7 中没有问题，但在 1.9 中它就结束了。我想这与编码有关，我已经进行了大量的谷歌搜索，所以也许有人可以启发我。代码: # en
regex - `too short multibyte code string in regex` 是什么意思？
我正在创建一个 sublime 文本突出显示文件。但是，我遇到了一个我不完全理解的错误。我有以下正则表达式: \x([0-9]|[A-F]|[a-f])([0-9]|[A-F]|[a-f]) 当我尝试
linux - 波兰语文本出现 msgfmt "invalid multibyte sequence"错误
使用 Complete C++ i18n gettext() “hello world” example我将区域设置从“es_MX”更改为“pl_PL”，并将文本从“hello, world!”更改为
php - iconv() : Detected an incomplete multibyte character in input string
您好，我已经看到这个问题是围绕陷阱提出的，但是到目前为止，当我尝试使用它们时，我看到的所有示例都没有帮助我。我收到错误 “iconv():在输入字符串中检测到一个不完整的多字节字符”，在某些输入上。同
Ruby 1.9.2 字符编码 : invalid multibyte character:/?/
我试图理解为什么这段代码在 Ruby 1.9.2 中不起作用我还试图弄清楚应该如何更改它才能使其工作。这是片段: ruby-1.9.2-p290 :009 > str = "hello world!"
Add character after each word in a string (multibyte-safe)(在字符串中的每个单词后添加字符(多字节安全))
我怎么能在每个单词之后都内爆性格呢？。我尝试了以下几种方法：。但它总是忽略一个词。例如：测试测试将给我测试，测试将给我测试，测试将给我测试。我还尝试了$QUERY=INPRODE(“*”，str_pl
python - 统一码编码错误 : 'gbk' codec can't encode character: illegal multibyte sequence
我想从 url 中获取 html 内容，并用正则表达式解析 html 内容。但是 html 内容有一些多字节字符。所以我遇到了标题中描述的错误。谁能告诉我如何解决这个问题？最佳答案您需要编辑您的
c++ - cygwin dlopen 错误 : Invalid or incomplete multibyte or wide character
这是 cygwin。我有一个共享库，其中包含一些其他共享库和一些静态库。当调用 dlopen() 时，返回一个句柄，但 perror() 返回 NULL 和“无效或不完整的多字节或宽字符” 很明显，

首页

博学

6Ren·AI

商城

c++ - 为什么我们从 MultiByte 转换为 WideChar？