c++ - 将 utf8 实体从 json 解码为 utf8 C++-6ren

c++ - 将 utf8 实体从 json 解码为 utf8 C++

转载作者：搜寻专家更新时间：2023-10-31 02:13:48

25

4

我有一个包含 utf8 实体的字符串(我不确定我是否正确命名它):

std::string std = "\u0418\u043d\u0434\u0435\u043a\u0441";

如何将其转换为更具可读性的内容？我使用支持 C++11 的 g++，但在 std::codecvt 手册中挖掘了几个小时后，我没有得到任何结果:

std::string std = "\u0418\u043d\u0434\u0435\u043a\u0441";

wstring_convert<codecvt_utf8_utf16<char16_t>,char16_t> convert; 
string dest = convert.to_bytes(std);

返回噩梦堆栈跟踪开始于:

error: no matching function for call to ‘std::wstring_convert<std::codecvt_utf8_utf16<char16_t>, char16_t>::to_bytes(std::string&)

我希望有另一种方式。

最佳答案

首先，您对 std::wstring_convert 的使用是倒退的。您有一个 UTF-8 编码的 std::string，您希望将其转换为宽 Unicode 字符串。您收到编译器错误是因为 to_bytes() 没有将 std::string 作为输入。它需要一个 std::wstring_convert::wide_string 作为输入(在你的例子中是 std::u16string，因为你使用了 char16_t在特化中)，所以你需要使用 from_bytes() 而不是 to_bytes():

std::string std = "\u0418\u043d\u0434\u0435\u043a\u0441";

std::wstring_convert<codecvt_utf8_utf16<char16_t>, char16_t> convert; 
std::u16string dest = convert.from_bytes(std);

现在，话虽这么说，JSON specification 的第 9 节状态:

9 String

A string is a sequence of Unicode code points wrapped with quotation marks (U+0022). All characters may be placed within the quotation marks except for the characters that must be escaped: quotation mark (U+0022), reverse solidus (U+005C), and the control characters U+0000 to U+001F. There are two-character escape sequence representations of some characters.

\" represents the quotation mark character (U+0022).

\\ represents the reverse solidus character (U+005C).

\/ represents the solidus character (U+002F).

\b represents the backspace character (U+0008).

\f represents the form feed character (U+000C).

\n represents the line feed character (U+000A).

\r represents the carriage return character (U+000D).

\t represents the character tabulation character (U+0009).

So, for example, a string containing only a single reverse solidus character may be represented as "\\".

Any code point may be represented as a hexadecimal number. The meaning of such a number is determined by ISO/IEC 10646. If the code point is in the Basic Multilingual Plane (U+0000 through U+FFFF), then it may be represented as a six-character sequence: a reverse solidus, followed by the lowercase letter u, followed by four hexadecimal digits that encode the code point. Hexadecimal digits can be digits (U+0030 through U+0039) or the hexadecimal letters A through F in uppercase (U+0041 through U+0046) or lowercase (U+0061 through U+0066). So, for example, a string containing only a single reverse solidus character may be represented as "\u005C".

The following four cases all produce the same result:

"\u002F"

"\u002f"

"\/"

"/"

To escape a code point that is not in the Basic Multilingual Plane, the character is represented as a twelve-character sequence, encoding the UTF-16 surrogate pair. So for example, a string containing only the G clef character (U+1D11E) may be represented as "\uD834\uDD1E".

原始 JSON 数据本身可能以 UTF-8(最常见的编码)、UTF-16 等编码。但无论使用何种编码，字符序列 "\u0418\u043d\u0434\u0435\u043a\u0441"表示UTF-16编码单元序列U+0418 U+043d U+0434 U+0435 U+043a U+0441，即Unicode字符串“Индекс”。

如果您使用实际的 JSON 解析器(例如 JSON for Modern C++、jsoncpp、RapidJSON 等)，它将为您解析 UTF-16 代码单元值并返回可读的 Unicode 字符串。

但是，如果您手动处理 JSON 数据，则必须手动解码任何 \x 和 \uXXXX 转义序列。 std::wstring_convert 不能为你做那件事。它只能将 JSON 从 std::string 转换为 std::wstring/std::u16string，如果这样更容易你来解析数据。但是，您仍然需要单独解析 JSON 的内容。

之后，如果需要，您可以使用 std::wstring_convert 转换任何提取的 std::wstring/std::u16string将字符串转换回 UTF-8 以节省内存。

关于c++ - 将 utf8 实体从 json 解码为 utf8 C++，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40793252/

25

4

0

文章推荐： c++ - QChartView、RubberBand 和鼠标右键行为

文章推荐： c++ - 使用 swig : Syntax error in input(1) 时出错

文章推荐： c++ - 通过 CMessage 发送数组 - OMNET++

文章推荐： c++ - 创建一个没有抽象方法的抽象类

c# - 为什么这不起作用？实体.CurHP - 实体.RIntDamage
都是整数，但一直报错 "Only assignment, call, increment, decrement, await, and new object expressions can be us
c# - 选择具有所有给定标签的 EF 实体(其中标签是 EF 实体)
我有以下情况:一个“对话”实体/表，它有多个关联的标签。Tag 也是一个实体/表 - key/id 是 tagName(一个字符串)。在客户端 (javascript)，我在处理标签时使用字符串数组
java - 是否有基于 hibernate 实体 XML 生成 java 源代码(实体)类的 Maven 插件？
我想通过 maven java 源代码生成器自动生成 java 源代码。我想通过查看一个大实体 xml 文件来创建实体类，该文件将包含系统中的所有实体和实体关系。据我搜索，目前maven中没有这样的插
java - EJB 2.1 实体 bean 与 EJB 3.0 实体 bean
我有一段时间有这个疑问，有人说 EJB 3.0 中没有所谓的实体 bean。有没有可能这样说，EJB 3.0 使用 JPA 来持久化数据并且没有对以前版本(EJB 2.1)中的实体 bean 进行增强
ios - Swift 3 核心数据 - 实体(上下文 :) vs Entity(entity: Location. 实体()，insertInto:上下文)
我观看了关于 Core Data 的 2016 WWDC 视频并查看了各种教程。我见过使用 Core Data Framework 创建对象以持久保存到 managedObjectContext 中的
07、DTD 实体
实体(entites) 用于定义引用普通文本或特殊字符的快捷方式的变量，可在内部或外部进行声明实体引用是对实体的引用声明一个内部实体语法： <!ENTITY 实体名称 "
java - hibernate !实体
This page建议 !ENTITY: If you want to avoid duplication, consider using XML entities (for example, [ ]
entity - 差异聚合根/实体
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)？ : 他们都有 ID 它们都是由实体或值对象组成也许如果我需要引用其他 AR 中的实体，那么我需要将其设为
没有关系的 Symfony 实体
我使用 Symfony2 和 Doctrine，我有一个关于实体的问题。出于性能方面的考虑，我想知道是否可以在不进行所有关联的情况下使用实体？目前，我还没有找到另一种方法来创建继承带有关联的类的模
附加文件符号的 HTML 实体？
我已经尝试在 HTML 中包含以下代码，用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体？如果没有，我们可以手动创建
没有持久化的 Grails 实体
我在 grails 中有一个域类......我如何让 gorm 在创建数据库时忽略这个实体？就别管它了。最佳答案如果我理解，你不想从域类创建表？如果是，请在域类中使用此代码: static map
entity - 差异聚合根/实体
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)？ : 他们都有 ID 它们都是由实体或值对象组成也许如果我需要引用其他 AR 中的实体，那么我需要将其设为
附加文件符号的 HTML 实体？
我已经尝试在 HTML 中包含以下代码，用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体？如果没有，我们可以手动创建
Java 实体 - 存储日期
如何在我的实体中以 14-04-2017 格式存储日期？但我必须从字符串中解析它。 SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-
c# - 实体 - 两个连接表是什么类型
我需要从两个连接表中获取数据。数据集是什么类型？我是否需要创建一个包含这两个表中的属性的类以用于数据集类型，或者我可以使用实体模式中的类型。我如何修改我的方法才能正常工作？ public static
php - Cakephp3将多个Mysql表标准化为1个模型表/实体
好的，我们正在尝试建立一个中央站点来查看来自销售我们产品的多个供应商的数据。这些多个供应商使用不同的销售系统(确切地说是两个不同的系统)，因此每个数据库看起来完全不同。我们与他们的数据库同步，因此数据
javascript - Backbone 实体
我是 backbone 的新手。但是当我研究模型实体时，我不明白一些事情。如果我们可以像 java 或 C# 这样的标准语言一样定义模型属性，那就太好了。有没有可能是这样的。所以我的想法是这样的: M
Android - 在可绘制对象中获取形状颜色/实体
我想获取存储在可绘制的 xml 文件中的形状的颜色。我来到了将 Drawable 存储在 Drawable 变量中的步骤，所以，现在我想获取形状的颜色(纯色标签)。有什么建议吗？最佳答案 Gra
java - 实体、服务类和命令对象的最佳实践问题
实体是直接映射到我们的数据库(我们用于 Hibernate)的类。在调用 DAO 之前，我们的服务类包含这些实体的业务逻辑。我们还有命令对象，它们是与特定 View 相关的 POJO。有人告诉我实
C# 函数返回通用对象/实体
在我的应用程序中，我需要显示不同存储过程返回的记录列表。每个存储过程返回不同类型的记录(即列数和列类型不同)。我最初的想法是为每种类型的记录创建一个类，并创建一个函数来执行相应的存储过程并返回 Li

首页

博学

6Ren·AI

商城

c++ - 将 utf8 实体从 json 解码为 utf8 C++