c++ - 如何解析UTF-8中文字符串-6ren

c++ - 如何解析UTF-8中文字符串

转载作者：行者123 更新时间：2023-11-30 05:19:30

25

4

我正在尝试解析可能包含中文字符的 std::string。例如对于一个字符串包含

哈囉hi你好hello

我想把它们分成6个字符串:哈, 啰, hi, 你, 好，你好。现在，该字符串是通过使用文本文件中的 getline() 获取的。引用这篇文章How to use boost::spirit to parse UTF-8? ，这是我当前的代码:

#include <boost/regex/pending/unicode_iterator.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/range.hpp>
#include <iterator>
#include <iostream>
#include <ostream>
#include <cstdint>
#include <string>

using namespace boost;
using namespace std;
using namespace std::string_literals; 

int main()
{
    string str = u8"哈囉hi你好hello"; //actually got from getline()
    auto &&utf8_text = str;

    u8_to_u32_iterator<const char*>
        tbegin(begin(utf8_text)), tend(end(utf8_text));

    vector<uint32_t> result;
    spirit::qi::parse(tbegin, tend, *spirit::standard_wide::char_, result);
    for(auto &&code_point : result) {
        cout << code_point << ";";
    }
}

但出现错误:对“开始”和“结束”的调用不明确。当我直接声明auto &&utf8_text = u8"哈啰hi你好你好"时可以，但是我不能这样写，因为字符串的内容是由getline()决定的>.

我也试过这个:

auto str = u8"你好，世界！";
auto &&utf8_text = str;

但仍然出现错误:没有匹配函数来调用“开始”和“结束”。

最佳答案

auto 与字符串字面量导致 char 指针。如果你想要std::string，你必须把它写出来。

关于c++ - 如何解析UTF-8中文字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41084664/

25

4

0

文章推荐： c++ - 运算符重载矩阵 c++ ** 没有代理 **

文章推荐： c++ - LZW压缩生成文件比原来大

文章推荐： java - 使用 C++ 时，Eclipe 是否需要 JDK？

javascript 中文/日文字符解码
我在服务器上创建了一个 JSONP 函数并像这样返回一个 UTF-8 编码的 json 对象 applyLocalization({"Name":"%E5%90%8D%E5%89%8D","Age":
string - 如何在Flutter中将Unicode字符串转换为正确的字符串(中文)
我正在开发一个应用程序，在该应用程序中我从API获取数据，并且正在获取这样的汉字 “u9c9cu82b1u548cu7231” 鲜花和爱如何转换？最佳答案您的字符串采用转义的unicode格式。
php - 中文/日文字母的正则表达式
好吧，我已经有了这个正则表达式，用于我网站上允许的名称。但是，我还希望添加名称可能使用的其他字母。有人有好的 regex 或知道如何使它更完整吗？我已经搜索了一段时间，但找不到适合我需要的内容。这是
php - 中文/日文字母的正则表达式
好吧，我已经有了这个正则表达式，用于我网站上允许的名称。但是，我还希望添加名称可能使用的其他字母。有人有好的 regex 或知道如何使它更完整吗？我已经搜索了一段时间，但找不到适合我需要的内容。这是
Yii框架多语言站点配置方法分析【中文/英文切换站点】
本文实例讲述了Yii框架多语言站点配置方法。分享给大家供大家参考，具体如下：这里假设我们要建立中文／英文切换的站点 1. 设置全局默认的语言文件添加代码：protected/confi
r - 如何在R中使用正确的(中文)编码下载网页文本
我想知道如何设置编码参数，以便当我下载文本时，它“看起来”与我在网络浏览器中的页面源代码中看到的一样，例如: readLines("http://www.baidu.com/s?wd=r+projec
unicode - 中文 <-> 英文翻译/字义数据库
我计划开发一个 web 应用程序，它将使用一种新颖的方式来帮助人们学习汉字并记住它们的含义。由于我不想/不能花费数年时间手动翻译所有中文字符，我想知道是否有(最好是开源的)数据库(任何形式)提供此功
javascript - 如何在html中渲染非英文字符(日语，中文)
我知道我的问题已经在这里有了解决方案。但我只想具体说明我的情况。我有一个 json 对象，其中包含非英语字符。例如。 {“my_chinise_name”:“吉米”}。该对象将通过 javascr
java - 中文(简体和繁体)和韩文文本的字符损坏
我有一个设置，其中邮件服务器(postfix)收到的电子邮件被处理，生成的电子邮件的正文(html或纯文本)和附件被解析为单独的文件并保存，为此我使用javax mail api。当电子邮件正文为中
django - 中文 django 翻译不起作用
我的 settings.py 看起来像这样: LANGUAGES = ( ('en', _('English')), ('fr', _('French')), #Simplif
python - QValueAxis 显示困惑的代码(中文)？
在我的图表中，x轴需要显示中文，y轴需要显示英文，但x轴显示困惑的代码。有人可以帮助我吗？ self.chart.createDefaultAxes() axis_x, axis_y = self.c
python - Beautifulsoup 返回奇怪的字符(中文)
使用Python3和BeautifulSoup v4 url='http://www.eurobasket2015.org/en/compID_qMRZdYCZI6EoANOrUf9le2.seaso
xcode - NSManagedObject 子类和应用程序名称(中文)
我的开发应用程序名称为中文。今天我从 CoreData 收到错误: CoreData: warning: Unable to load class named '￐ﾟ￐ﾣ￐ﾝ￐ﾚ.' for enti
java - 用java解析阿拉伯文/中文/日文RSS提要
我正在用 java 编写一个 rss feed 解析器，在解析包含阿拉伯文/中文/日文字符的 feed 时遇到了问题。 Example feed 当我打印它们时，我只是得到一组问号“?????? ??
python - 如何在python程序中比较非英文(中文)字符？
在我的一个Python程序(python 2.7)中，我需要处理一些汉字: 我有一个文件A.txt，它有两列:“name”和“score”，“name”列可以取一些中文字符串，score是一个1 到
android - 如何让android设备 "speak"中文？
我正在学习使用 eclipse 和 ADT 插件在 Android 上开发应用。根据android SDK 文档中的这篇文章http://androidappdocs.appspot.com/res
javascript - 中文 URL 编码问题
我有这样的中文文字:“回家” - 好像是英文的“house”。我去 google.com，在搜索中输入“回家”并得到这样的 url: http://www.google.ru/... q=%E5%9
ios - NSSortDescriptor 中文...怎么样？
我正在为我的应用程序添加中文支持。我有这条线可以对英语和其他语言进行排序 NSSortDescriptor *sortByItem = [NSSortDescriptor sortDesc
python - 打印日文(中文)字符
我读日语，想尝试处理一些日语文本。我使用 Python 3 尝试了这个: for i in range(1,65535): print(chr(i), end='') 然后 Python 给了
c# - 将文本框输入翻译成西类牙语、中文、德语
我想将文本框值翻译成特定语言，如西类牙语、中文、德语等，它们都在下面的下拉列表中，我想在标签中显示文本框翻译值，但不在标签中显示翻译值。 English J

首页

博学

6Ren·AI

商城

c++ - 如何解析UTF-8中文字符串