c++ - 为什么 mbstowcs 返回 "invalid multibyte character"-6ren

c++ - 为什么 mbstowcs 返回 "invalid multibyte character"

转载作者：太空宇宙更新时间：2023-11-04 01:40:22

26

4

"קמ"ד חיר!" 是从 gdb 中的变量打印粘贴的输入字符串拷贝。调用 mbstowcs 返回 -1，另一个输入为 NULL。关于问题出在哪里/如何解决这个问题有什么想法吗？

"\327\247\327\236"\327\223\327\227\327\231\327\250!\000\000\000" 是非ascii的字符串八进制字符

程序语言环境是 C。

最佳答案

mbtowcs 函数不处理 UTF-8 编码，没有您可以设置的区域设置让它将 UTF-8 转换为 wchar_t。因此，我将使用 Windows 示例，但总体思路在大多数操作系统上都是相同的。

在多字节字符集世界中，给定的八进制值可能没有一种含义，任何给定字符也可能没有一个八进制值。特定八进制值的含义以及字符的表示方式(或者甚至如果它可以表示)由 locale 决定。 .

当 mbstowcs 返回错误时，它基本上是在告诉您没有与传入的多字节字符等效的宽字符。这可能意味着没有 UNICODE 字符(不太可能但并非不可能)，或者它可能意味着语言环境没有为给定的八进制值(或多字节字符情况下的八进制值序列)定义字符。

如果您没有明确设置您的语言环境(通过调用 setlocale )，那么您会根据您的系统配置获得一个语言环境。要检索您当前的语言环境，您可以调用 _get_current_locale .一旦您知道了您的语言环境，您就可以找出一个特定的八进制值代表什么字符(如果有的话)，然后您可以找出 UNICODE 等价物(如果有的话)。

识别问题字符的一种方法是改变传递给 mbstowcs 的长度，直到找到导致错误的单个字符。一种蛮力方法可能是从 length=1 开始并增加它直到 mbstowcs 返回 -1。

7 月 25 日更新

从评论讨论中我们发现输入字符串(很可能)编码为 UTF-8。虽然最初的答案是正确的(就目前而言)，但还不够。在 Windows 上，您无法创建将处理以 UTF-8 编码的字符的语言环境。

当遇到 UTF-8 时，我们可以调用 MultiByteToWideChar 而不是调用 mbtowcs|使用代码页 CP_UTF8 但该代码仅适用于 Windows...

BYTE bytes [] = {0xD7,0x99,0xD7,0x95,0xD7,0x97,0xD7,0x90,0xD7,0x99,0x20,0xD7,0x95,0xD7,0x9B,0xD7,0x98,0xD7,0xA8, 0x00};

int result;

// get length of converted string in characters
result = MultiByteToWideChar (CP_UTF8, MB_ERR_INVALID_CHARS, (char *)bytes, 
    sizeof (bytes), NULL, 0);

wchar_t * name = new wchar_t [result];

// convert string
result = MultiByteToWideChar (CP_UTF8, MB_ERR_INVALID_CHARS, (char *)bytes, 
    sizeof (bytes), name, result);

关于c++ - 为什么 mbstowcs 返回 "invalid multibyte character"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6400597/

26

4

0

文章推荐： python - NumPy:从字符串列表中加载异构数据列

文章推荐： python - 将小数转换为有效数字

文章推荐： c - C中的二维指针算法

java - 如何让我的程序将每个字符打印为 "Character #1: (character) , Character #2: (character), etc"？
int i; System.out.print("Please enter a string: "); String string_1 = input.nextLine(); System.out
c# - 用于检查密码是否为 "8 characters including 1 uppercase letter, 1 special character, alphanumeric characters"的正则表达式
我想要一个正则表达式来检查 a password must be eight characters including one uppercase letter, one special charac
Python 命令行 "characters"返回 'characters'
在此先感谢您的帮助。在命令行输入“example”时，Python 返回“example”。我在网上找不到任何东西来解释这一点。所有引用资料都在 print 命令的上下文中谈到字符串，我得到了所有关
character-encoding - 如何解码乱码编码: Special Character Encoding
我有 CSV 格式的数据，这些数据在字符编码方面被严重打乱，可能在不同的软件应用程序(LibreOffice Calc、Microsoft、Excel、Google Refine、自定义 PHP/My
character-encoding - Sublime Text : Not representable characters
我正在为 Latex 使用 Sublime Text，所以我需要使用特定的编码。但是，在某些情况下，当我粘贴从不同程序(大多数情况下为单词/浏览器)复制的文本时，我收到以下消息: "Not all c
Flutter FormatException : Unexpected character (at character 1)
在 flutter 中，我使用了一个php文件，该文件从数据库查询返回json响应，但是当我尝试解码json时，出现此错误: E/flutter ( 8294): [ERROR:flutter/lib
firebase - Flutter格式异常: Unexpected Character (at character 1)
我在 Flutter 项目中遇到异常。错误如下所示: Exception has occurred. FormatException (FormatException: Unexpected char
java - : character >= '0' and character <= 0 之间的差异
这个问题已经有答案了: Why doesn't my compare work between char and int in Java? (4 个回答) 已关闭 3 年前。我试图在我的代码中找出
firebase - Flutter格式异常: Unexpected Character (at character 1)
我在 Flutter 项目中遇到异常。错误如下所示: Exception has occurred. FormatException (FormatException: Unexpected char
Python脚本: Character 1 equal to character n
我是 python 新手，需要一些帮助。我应该编写一个脚本，从键盘读取单词，直到输入单词 999。对于除 999 之外的每个单词，报告该单词是否有效。如果单词的第一个字符等于最后一个字符，则该单词有效
C# 语法 : What character is the "new line" character?
我正在实现自己的词法分析器，并且刚刚了解了 C# 如何处理字 rune 字:https://msdn.microsoft.com/en-us/library/aa691087(v=vs.71).asp
JavaScript : Replace all character by empty after a specific character
我有这个字符串: var test = "toto@test.com"; 我想用空值替换“@”字符后的所有字符。我想得到这个字符串: var test = "toto" 最佳答案试试这个: test
python - 运算符不存在 : character varying + character varying
我将数据库从 sqlite 更改为 postgresql 以用于我网站的生产，但出现此错误。当我在本地使用 sqlite 时，它没有出现这个错误。使用 Django。 ProgrammingErr
C语言 : there is a trailing character after the last character of my output
我正在为我的实验表制作凯撒密码，并使其能够加密 3 代入(凯撒密码)，这是练习的重点。但是有一件事困扰着我。首先，如果我输入 3 以外的字符，则有一个尾随字符。例如，输入“恶意软件”，然后输入 2 作
c - 使用八进制字符给出警告 : multi-character character constant
遵循 this question 中的逻辑，以下代码应该有效: #include int main(){ printf("%c", '\0101'); return 0; } 然而，
c# - "Too many characters in character literal error"
我在处理一段代码时遇到错误: Too many characters in character literal error 使用 C# 和 switch 语句遍历字符串缓冲区并读取标记，但在这一行中出
xslt - xsl :character-map to replace special characters
给定一个元素，其值为: Distrib = SU & Prem <> 0 我要转<或 >进入 <或 >因为下游应用程序需要
r - R 中的 as.character() 和 as( ,"character") 有什么区别
从表面上看，他们似乎都在做同样的事情。但似乎是后者as(,"character")更强大。作为示例，请考虑以下内容: library(rvest) temp % html_node("div p")
python - Python语法错误: unexpected character after line continuation character
我刚开始使用python，所以很可能只是在做一些愚蠢的事情。我正在从表中读取数据，需要将它们放入txt文件的列中。我无法说服我的代码创建新行。这是我的代码- file = open("test_m.
arrays - "character*10::a"和 "character::a(10)"之间的区别
在尝试刷新我的项目的 Fortran 90 知识时，我在使用内部文件时遇到了一些奇怪的情况。考虑示例代码: ! ---- internal_file_confusion.f90 ---- progra

首页

博学

6Ren·AI

商城

c++ - 为什么 mbstowcs 返回 "invalid multibyte character"