gpt4 book ai didi

c++ - 解析以 UTF-8 编码的 XML

转载 作者:行者123 更新时间:2023-11-30 04:40:31 30 4
gpt4 key购买 nike

我正在使用以 UTF-8 编码的维基百科 XML 转储。现在,我正在以 std::string 的形式读取所有内容,因此当我将 std::cout 显示到屏幕时,外来字符显示为乱码。

虽然实际的解析过程只查找 ASCII 字符,但是当我将解析后的文件写入磁盘时,我想保留外来字符。换句话说,我希望输出与输入具有相同的编码。

可以使用 std::string 吗,还是我必须使用 ICU 之类的东西?我看过的图书馆似乎过于复杂。有什么我可以用来做这件事的快速方法吗?

最佳答案

UTF-8 是 XML 文档的默认编码。只需将其写入您的文件即可。将它转换为 Unicode 并再次转换回来是没有意义的。如果它不小心被扔到你的屏幕上,请移开你的视线:-)

删除像“{”这样的 ASCII 字符不会造成问题。 UTF-8 的设计使得多字节字符中的任何字节都不在 0-127 范围内,因此不会与 ASCII 字符混淆。

关于c++ - 解析以 UTF-8 编码的 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1218133/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com