- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
问题陈述:
我需要将生成的字符串转换为UTF8字符串,此生成的字符串已扩展了ascii字符,并且我在Linux系统上(2.6.32-358.el6.x86_64)。
POC仍在进行中,因此我只能提供小代码示例
完整的解决方案只有在准备好后才能发布。
为什么需要UFT8(我已将ascii字符扩展为存储在必须为UTF8的字符串中)。
我如何进行:
将生成的字符串转换为wchar_t字符串。
请看下面的示例代码
int main(){
char CharString[] = "Prova";
iconv_t cd;
wchar_t WcharString[255];
size_t size= mbstowcs(WcharString, CharString, strlen(CharString));
wprintf(L"%ls\n", WcharString);
wprintf(L"%s\n", WcharString);
printf("\n%zu\n",size);
}
**iconv_t iconv_open(const char *, const char *);
size_t iconv(iconv_t, char **, size_t *, char **, size_t *);
int iconv_close(iconv_t);**
最佳答案
对于第一个问题(我将其解释为“为什么所有输出都不是我期望的结果”):
'?????'在哪里来自?在调用mbstowcs(WcharString, CharString, strlen(CharString))
中,最后一个参数(strlen(CharString)
)是输出缓冲区的长度,而不是输入字符串的长度。 mbstowcs
所写的宽字符(包括NUL终止符)不得超过该数量。由于转换需要包括终止符在内的6个宽字符,并且您只允许它写入5个宽字符,因此生成的宽字符串不会以NUL终止,并且当您尝试将其打印出来时,最终会在结束后打印垃圾转换后的字符串。因此,?????
。您应该使用wchar_t
的输出缓冲区的大小(在本例中为255)。
为什么第二个wprintf
只打印一个字符?当使用宽字符串参数调用wprintf
时,必须使用%ls
格式代码(或更准确地说,%s
转换需要使用l
长度修饰符进行限定)。如果在不使用%s
的情况下使用l
,则wprintf
会将字符串解释为char*
,并在将其输出时将每个字符转换为wchar_t
。但是,由于参数实际上是一个宽字符串,因此字符串中的第一个wchar_t
是L"p"
,它是某个整数大小的数字0x70
。这意味着wchar_t
的第二个字节(从末尾开始计数,因为您使用的是Little-endian体系结构)为0,因此,如果将字符串视为字符串,则它将在< cc>。因此只打印一个字符。
为什么最后一个p
不打印任何内容?在C语言中,输出流可以是宽流也可以是字节流,但是在打开流时无需指定。 (并且,无论如何,标准输出已经为您打开。)这称为流的方向。新打开的流是未定向的,并且在首次输出到该流时该定向是固定的。如果第一个输出调用是广泛调用,例如printf
,则该流是广泛流;否则,它是一个字节流。设置后,方向是固定的,您不能使用方向错误的输出调用。因此,wprintf
是非法的,除了引发错误外,它什么也不做。
现在,让我们继续您的第二个问题:我该怎么办?
首先,您需要清楚输入的格式以及输出方式。在Linux上,根本不可能使用printf
。输入字符串最可能的情况是它已经是UTF-8,或者已经以某些ISO-8859-x编码。输出的最可能情况是相同的:要么是UTF-8,要么是某种ISO-8859-x编码。
不幸的是,您的程序无法知道控制台期望的编码方式。输出甚至可能不会发送到控制台。同样,您的程序实际上无法知道输入字符串中正在使用哪种ISO-8859-x编码。 (如果它是字符串文字,则在调用编译器时可能会指定编码,但是没有提供信息的标准方法。)
如果由于非ASCII字符无法正确显示而无法查看输出,则应首先确保将控制台配置为使用与程序输出相同的编码。如果程序将UTF-8发送到正在显示ISO-8859-15的控制台,则文本将无法正确显示。从理论上讲,您的语言环境设置包括控制台使用的编码,但是如果您使用的是远程控制台(例如,通过Windows计算机上的PuTTY),则该控制台不是Linux环境的一部分,因此默认语言环境可能不正确。最简单的解决方法是正确配置控制台,但也可以更改Linux语言环境。
您从字节字符串中使用wchar_t
的事实表明您相信原始字符串位于UTF-8中。因此,问题似乎不太可能是您需要将其转换为UTF-8。
您当然可以使用mbstowcs
将字符串从一种编码转换为另一种编码。您无需执行iconv
即可。但是您确实需要知道实际的输入编码和所需的输出编码。
关于c++ - 将字符串转换为UTF8字符串所需,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30918551/
UTF-8、UTF-16 和 UTF-32 之间有何区别? 据我所知,它们都将存储 Unicode,并且每个都使用不同数量的字节来表示字符。选择其中之一是否有优势? 最佳答案 当 ASCII 字符代表
好的。我知道这看起来像典型的“他为什么不直接用谷歌搜索或去 www.unicode.org 查一下?”问题,但对于这样一个简单的问题,在检查了两个来源后,我仍然无法回答。 我很确定这三种编码系统都支持
是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符 最佳答案 没有。 UTF-* 是可以对全范围 Unicode 字符进行编码的编码。 编码之间的差异在于每个字符使用多少字节。 关于u
是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符 最佳答案 没有。 UTF-* 是可以对全范围 Unicode 字符进行编码的编码。 编码之间的差异在于每个字符使用多少字节。 关于u
UTF-16 是一种双字节字符编码。交换两个字节的地址将产生 UTF-16BE 和 UTF-16LE。 但我发现在 Ubuntu gedit 文本编辑器中存在名称 UTF-16 编码,以及 UTF-1
我想将 UTF-16 字符串转换为 UTF-8。我通过 Unicode 发现了 ICU 库。我在转换时遇到问题,因为默认设置是 UTF-16。我试过使用转换器: UErrorCode myError
UTF-16 需要 2 个字节,UTF-8 需要 1 个字节。 而USB是面向8bit的,UTF-8更自然。 UTF-8 向后兼容 ASCII,而 UTF-16 则不然。 UTF-16 需要 2 个字
我对将 unicode 字符转换为十六进制值有点困惑。 我正在使用这个网站获取字符的十六进制值。 ( https://www.branah.com/unicode-converter ) 如果我输入“
我已经用UTF-8编码创建了一个文件,但是我不了解其在磁盘上占用的大小的规则。这是我的完整研究: 首先,我创建了一个带有印地语字母“'”的文件,Windows 7上的文件大小为 8个字节。 现在带有两
如何将WideString(或其他长字符串)转换为UTF-8中的字节数组? 最佳答案 这样的功能将满足您的需求: function UTF8Bytes(const s: UTF8String): TB
我有一个奇怪的验证程序,用于验证utf-8字符串是否是有效的主机名(PHP中的Zend Framework主机名valdiator)。它允许IDN(国际化域名)。它将比较每个子域与由其十六进制字节表示
在 utf16 和 utf32 中,一个字节的零是否意味着空?就像在 utf8 中一样,还是我们需要 2 个和 4 个字节的零来相应地在 utf16 和 utf32 中创建 null? 最佳答案 在
这是基于我的观察,对于 mysql,默认字符集 utf8 有点误导,它不支持完整的 Unicode,因为它无法存储四字节 UTF-8 编码的字符。它实际上是 utf8mb4 字符集,它是完整的 Uni
我只有处理 ASCII(单字节字符)的经验,并且阅读了很多关于人们如何以不同方式处理 Unicode 的帖子,这些帖子提出了他们自己的一系列问题。 此时我对 Unicode 的了解非常有限,我读到过U
我明白 std::codecvt在 C++11 中执行 UTF-16 和 UTF-8 之间的转换,并且 std::codecvt执行 UTF-32 和 UTF-8 之间的转换。是否可以在 UTF-8
我正在编写一个 HTTP 服务器并使用 trivial-utf-8:write-utf-8-bytes 来响应请求。我听说Babel就像trivial-utf-8但效率更高,所以我想试一试。搜索了一段
我正在设计一个新的 CMS,但想要设计它来满足我 future 的所有需求,比如多语言内容,所以我认为 Unicode (UTF-8) 是最好的解决方案 但是通过一些搜索我得到了这篇文章 http:/
例如,假设我在字符串中有以下 xml: 如果我尝试将其插入到带有 Xml 列的 SQL Server 2005 数据库表中,我将收到以下错误(我使用的是 EF 4.1,但我认为这无关紧要): XM
我正在使用 Python CSV 库读取两个 CSV 文件。 一种使用 UTF-8-BOM 编码,另一种使用 UTF-8 编码。在我的实践中,我发现使用“utf-8-sig”作为编码类型可以读取这两个
假设我的数据库设置如下以使用 utf-8(mysql 中的完整 4mb 版本) mysql_query("SET CHARACTER SET utf8mb4"); mysql_query("SET N
我是一名优秀的程序员,十分优秀!