- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我需要使用 C++ implementation of PHP's mb_strtoupper function模仿维基百科的行为。
我的问题是,我只想向函数提供一个单个 UTF-8 字符,即 std::string 的第一个字符。
std::string s("äbcdefg");
mb_strtoupper(s[0]); // this obviously can't work with multi-byte characters
mb_strtoupper('ä'); // works
是否有一种有效的方法来检测/返回字符串的第一个 UTF-8 字符?
最佳答案
在 UTF-8 中,第一个字节的高位告诉您有多少后续字节属于同一代码点。
0b0xxxxxxx: this byte is the entire code point
0b10xxxxxx: this byte is a continuation byte - this shouldn't occur at the start of a string
0b110xxxxx: this byte plus the next (which must be a continuation byte) form the code point
0b1110xxxx: this byte plus the next two form the code point
0b11110xxx: this byte plus the next three form the code point
可以假设该模式继续存在,但我认为有效的 UTF-8 从未使用超过四个字节来表示单个代码点。
如果您编写一个函数来计算设置为 1 的前导位的数量,那么您可以使用它来确定在何处拆分字节序列,以便隔离第一个逻辑代码点,假设输入是有效的 UTF- 8.如果您想针对无效的 UTF-8 进行强化,则必须编写更多代码。
另一种方法是利用连续字节始终与模式 0b10xxxxxx
匹配这一事实,因此您获取第一个字节,然后只要下一个字节匹配就继续获取字节那种模式。
std::size_t GetFirst(const std::string &text) {
if (text.empty()) return 0;
std::size_t length = 1;
while ((text[length] & 0b11000000) == 0b10000000) {
++length;
}
return length;
}
对于许多语言,单个代码点通常映射到单个字符。但是人们认为的单个字符可能更接近 Unicode 所说的字素簇,它是一个或多个代码点组合起来产生一个字形。
在您的示例中,ä
可以用不同的方式表示:它可以是单个代码点 U+00E4 LATIN SMALL LETTER A WITH DIAERESIS
或 它可能是 U+0061 LATIN SMALL LETTER A
和 U+0308 COMBINING DIAERESIS
的组合。幸运的是,只需选择第一个代码点就可以实现将第一个字母大写的目标。
如果您确实需要第一个字素簇,则必须查看第一个代码点以外的内容,看看下一个是否与它结合。对于许多语言,知道哪些代码点是“非间距”或“组合”或变体选择器就足够了。对于一些复杂的脚本(例如韩文?),您可能需要求助于此 Unicode Consortium technical report .
关于c++ - 从 std::string 中提取(第一个)UTF-8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22774630/
我正在开发一个小型图书馆,我需要做的一件事是让访问者访问一些数据并返回结果。 在一些较旧的 C++ 代码中,访问者需要声明一个 typedef return_type .例如,boost::stati
我正在尝试使用std:map类型的键和值制作std::any Visual Studio 2017 std::map m("lastname", "Ivanov"); std::cout (m["la
我已经在 C++ 的 map 中声明了一个集合为 std::map> .如何循环访问或打印设定值? 最佳答案 如果你知道如何迭代 std::map或 std::set单独地,您应该可以毫无问题地组合迭
如何循环? 我已经试过了: //----- code std::vector >::iterator it; for ( it = users.begin(); it != users.end();
我有两个用例。 A.我想同步访问两个线程的队列。 B.我想同步两个线程对队列的访问并使用条件变量,因为其中一个线程将等待另一个线程将内容存储到队列中。 对于用例 A,我看到了使用 std::lock_
我正在查看这两种类型特征的文档,但不确定有什么区别。我不是语言律师,但据我所知,它们都适用于“memcpy-able”类型。 它们可以互换使用吗? 最佳答案 不,这些术语不能互换使用。这两个术语都表示
我有以下测试代码,其中有一个参数 fS,它是 ofstream 的容器: #include #include #include #include int
这是这个问题的延续 c++ function ptr in unorderer_map, compile time error 我试图使用 std::function 而不是函数指针,并且只有当函数是
std::unordered_map str_bool_map = { {"a", true}, {"b", false}, {"c", true} }; 我们可以在此映射上使
我有以下对象 std::vector> vectorList; 然后我添加到这个使用 std::vector vec_tmp; vec_tmp.push_back(strDRG); vec_tmp.p
为什么 std::initializer_list不支持std::get<> , std::tuple_size和 std::tuple_element ?在constexpr中用得很多现在的表达式,
我有一个像这样定义的变量 auto drum = std::make_tuple ( std::make_tuple ( 0.3f , Ex
假设我有一个私有(private)std::map在我的类(class)里std::map 。我怎样才能将其转换为std::map返回给用户?我想要下面的原型(prototype) const std
假设我有一个私有(private)std::map在我的类(class)里std::map 。我怎样才能将其转换为std::map返回给用户?我想要下面的原型(prototype) const std
问题 我正在尝试将 lambda 闭包传递给 std::thread,它使用任意封闭参数调用任意封闭函数。 template std::thread timed_thread(Function&& f
我想创建一个模板类,可以容纳容器和容器的任意组合。例如,std::vector或 std::map ,例如。 我尝试了很多组合,但我必须承认模板的复杂性让我不知所措。我编译的关闭是这样的: templ
我有一个 std::vector>我将其分配给相同类型的第二个 vector 。 我收到这个编译器错误: /opt/gcc-8.2.0/include/c++/8.2.0/bits/stl_algob
有时候,我们有一个工厂可以生成一个 std::unique_ptr vector ,后来我们想在类/线程/你命名的之间共享这些指针。因此,最好改用 std::shared_ptr 。当然有一种方法可以
这个问题在这里已经有了答案: Sorting a vector of custom objects (14 个答案) 关闭 6 年前。 我创建了一个 vector vector ,我想根据我定义的参
我有三个类(class)成员: public: std::vector > getObjects(); std::vector > getObjects() const; privat
我是一名优秀的程序员,十分优秀!