gpt4 book ai didi

c++ - 如何使用 STL 字符串和流读取/存储 unicode

转载 作者:可可西里 更新时间:2023-11-01 16:41:45 29 4
gpt4 key购买 nike

我需要修改我的程序以接受 Unicode,它可能来自任何 UTF-8 以及各种 UTF-16 和 UTF-32 编码。我对 Unicode 了解不多(尽管我读过 Joel Spolsky 的 articleWikipedia page )。

现在我正在使用 std::istream 并通过 char 读取我的输入 char,然后存储(必要时)在 std::string 中。我愿意

  • 对此进行修改(尽可能不费力)以支持上述编码,并且
  • 弄清楚如何测试上述编码(我有点白面包美国人,甚至不知道如何用另一种编码制作示例文本文件),理想情况下
  • 以跨平台的方式做到这一点。

此外,如果可能的话,我想尽可能地节省空间(所以如果我们只需要一个字节/字符,我们就不会使用它)。据我了解,这意味着以 UTF-8 格式存储,这很好,但我不知道执行此操作的标准字符串(据我了解,wchar_t 具有实现定义的大小和编码)。

最佳答案

只要您主要使用标准 ASCII 字符,UTF-8 就可以节省空间。

std::string 对于 UTF-8 没有问题,因为其中没有 0 字节。你可以告诉 std::string 输入字符有多长,如果它们有 NULL 字节,就像在 UTF-32 中一样。 std::string 无法告诉您 UTF-8 字符串有多少个字符,您必须使用外部函数。

此外,还有一个使用 wchar_t 的 std::string 的宽版本,而不是 char,我只是忘记了名字。

boost 中还有用于编码之间转换的方面。

您可以将标准库与 boost 一起使用。或者您可以使用 C 库中的字符串处理函数。还有Qt、Tcl等编程框架提供的功能。

例如:

utf8 codecvt facet

关于c++ - 如何使用 STL 字符串和流读取/存储 unicode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/390977/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com