gpt4 book ai didi

c - UTF8 控制台输出 : MultiByteToWideChar vs mbsrtowcs

转载 作者:太空宇宙 更新时间:2023-11-04 01:25:27 26 4
gpt4 key购买 nike

我想从 UTF-8 文件中读取一小行并将其显示在 Windows 控制台中。

我使用 MultiByteToWideChar Winapi 函数成功了:

void mbtowchar(const char* input, WCHAR* output) {
int len = MultiByteToWideChar(CP_UTF8, 0, input, -1, NULL, 0);
MultiByteToWideChar(CP_UTF8, 0, input, -1, output, len);
}

void main() {
setlocale(LC_ALL,"");
char in[256];

FILE* file = fopen("data.txt", "r");
fgets(in, 255, file);
fclose(file);

mbtowchar(in, out);
printf("%ls",out);
}

...但是我使用 ISO mbsrtowcs 函数失败了(非 ASCII 字符乱七八糟):

void main() {
setlocale(LC_ALL,"");
char in[256];
wchar_t out[256];

FILE* file = fopen("data.txt", "r");
fgets(in, 255, file);
fclose(file);

const char* p = in;
mbstate_t mbs = 0;
mbsrtowcs(out, &p, 255, &mbs);

printf("%ls",out);
}

我是不是对 mbsrtowcs 做错了什么,或者这两个函数之间有什么重要的区别?是否可以使用 ISO 函数在 Windows 控制台中可靠地打印 UTF-8? (假设安装了匹配的控制台字体。)

注意:我使用 MinGW gcc 编译器。 C++ 是我最后的解决方案,我想继续使用 C。

最佳答案

mbsrtowcs 的“错误”在于它将系统定义的 8 位字符可变宽度编码 (char) 转换为固定宽度数组“宽”字符 (wchar_t)。宽字符今天被理解为 Unicode 代码点,但“多字节”并不一定意味着 UTF-8。在 Windows 上,它实际上指的是 various pre-Unicode encodings of Asian scripts .令人沮丧的是,Windows doesn't support UTF-8作为 native “多字节”编码,apparently never will .

因此尝试使用 mbsrtowcs 来解释 UTF-8 在 Win32 上注定要失败。您将不得不使用 MultiByteToWideChar,就像您的第一个代码片段所做的那样,或者切换到其他一些将 UTF-8 转换为 UTF-16 的方法。 (由于 UTF-8 和 UTF-16 都对 UCS 代码点进行编码,如果您的目标是避免依赖专有扩展,您甚至可以自己编写一个简单的例程来执行此操作。)

关于c - UTF8 控制台输出 : MultiByteToWideChar vs mbsrtowcs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32181394/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com