- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我有一个 UTF-16 编码流,我想将它转换成纯 ASCII,即如果有一个 ASCII 字符 -> 打印它。如果代码单元代表其他我不关心的东西,例如汉字) -> 输出垃圾。
我正在使用这个代码
typedef std::codecvt_utf16<wchar_t> convert_typeX;
std::wstring_convert<convert_typeX, wchar_t> converterX;
std::string converted = converterX.from_bytes(str);
它似乎有效..但为什么呢?
documentation对于 codecvt_utf16
状态:
std::codecvt_utf16 is a std::codecvt facet which encapsulates conversion between a UTF-16 encoded byte string and UCS2 or UCS4 character string (depending on the type of Elem).
据我所知,UCS2 是 unicode 的一个版本。所以这段代码正在转换为代表 unicode 字符的 wchar_t
字节序列,对吗?我怎么会得到 ASCII 字节?
最佳答案
unicode 的好处是 unicode 值 0-127 代表 ASCII 字符 0-127。
因此,您甚至不需要在 std::codecvt
上浪费时间。您所要做的就是扫描您的 UTF-16 序列,获取 0-127 范围内的所有 UTF-16 值(有关从字节流中提取 UTF-16 值的简单过程,请参阅 UTF-16 的维基百科条目),你最终会得到纯 ASCII,就像变魔术一样。这是因为,根据定义,大于 127 的值不是纯 ASCII。您可以对所有其他角色做任何您想做的事情。
而且,如果您想将范围扩展到 iso-8859-1
,而不是 US-ASCII
,您可以将范围扩展到 0-255。因为 unicode 值 128-255 也等同于 iso-8859-1
代码集中的字符 128-255。
关于c++ - 了解 unicode codecvt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34222576/
此代码使用 Visual C++ 11 编译并在 Windows 7 上按预期运行,但使用 Windows 7 上的 MinGW 4.7.0 或 Linux 上的 gcc 4.8.0 编译失败。使用
在使用std::codecvt的in方法将外部字节序列解码为内部字符序列时,是否存在内部字符的目标缓冲区需要多个内部字符的空间? 这里有一些代码供引用: // const std::locale& l
我有一个 UTF-16 编码流,我想将它转换成纯 ASCII,即如果有一个 ASCII 字符 -> 打印它。如果代码单元代表其他我不关心的东西,例如汉字) -> 输出垃圾。 我正在使用这个代码 typ
有点前景:我的任务需要将 UTF-8 XML 文件转换为 UTF-16(当然还有适当的 header )。因此,我搜索了将 UTF-8 转换为 UTF-16 的常用方法,发现应该使用来自 的模板。
那么在 C++ codecvt/locale 库中是否有一个合适的方面可以用来测试一个字符是否"is"某物? IE 测试一个字符是否是任何形式的换行符,或代表数字或空格等? 或者是否必须为此手动/使用
我已经重载了 do_in std::codecvt的方法| : #include #include #include class codecvt_to_upper : public std::c
我想像这样使用 codecvt 将 std:wstring 转换为 std::string #include #include #include #include #include //so
一点前景:我的任务需要将 UTF-8 XML 文件转换为 UTF-16(当然,带有适当的 header )。因此,我搜索了将 UTF-8 转换为 UTF-16 的常用方法,发现应该使用 中的模板。
我正在尝试将我自己的 codecvt 与标准 iostream 一起使用。我正在使用这条线: std::cout.imbue(std::locale(std::locale("C"), new rot
从关于 locales 的问题延伸 并在 this question 中描述: 我真正想做的是在理解 UTF-16 文件的语言环境中安装一个 codecvt facet。 我可以自己写。但我不是 UT
如何编写 std::codecvt 方面?我想写从 UTF-16 到 UTF-8 的代码,从 UTF-16 到系统当前代码页(windows,所以 CP_ACP),以及系统的 OEM 代码页(wind
有点前景:我的任务需要将 UTF-8 XML 文件转换为 UTF-16(当然,带有正确的标题)。所以我搜索了将 UTF-8 转换为 UTF-16 的常用方法,发现应该使用 中的模板。 . 但现在是d
我正在研究我的一些旧的(并且专门面向 win32 的)东西并考虑使它更现代/可移植 - 即在 C++11 中重新实现一些可广泛重用的部分。这些部分之一是 utf8 和 utf16 之间的转换。在 Wi
我想使用 std::codecvt::in() 将以双字节代码页编码的字符串转换为 UTF-16 字符串关于 Microsoft 标准库实现 (MSVC11)。例如,考虑以下程序: #include
我什至无法从 cppreference.com 获得基本的 codecvt 示例以在 GCC 4.9 或 Clang 3.4 上编译,例如: http://goo.gl/HZ5GLH http://c
给定 #include struct Q; struct R{ void operator()(Q*) { } }; class S : public std::codecvt { } ; int
尝试使用 boost 文件系统 3,但是当我链接时,我得到以下 undefined reference : ../myfile-g.o: In function `boost::filesystem3
我将以下代码作为我正在编写的字符串类中的私有(private)函数(它是从 wstring_convert “借来的”,并由我进行了一些修改): template std::string my_st
有一个问题让我感到困惑。 std::codecvt 和 std::codecvt_utf8 之间的确切区别是什么?正如 STL 引用所说,std::codecvt_utf8 是来自 std::code
在 C++ 中,我想使用 Unicode 来做事。因此,在掉进 Unicode 的兔子洞之后,我最终陷入了困惑、头痛和语言环境的火车残骸中。 但在 Boost 中,我遇到了一个不幸的问题,即尝试使用
我是一名优秀的程序员,十分优秀!