gpt4 book ai didi

c++ - C++11 正则表达式是否适用于 UTF-8 字符串?

转载 作者:IT老高 更新时间:2023-10-28 12:54:39 24 4
gpt4 key购买 nike

如果我想将 C++11 的正则表达式与 unicode 字符串一起使用,它们是否可以将 char* 作为 UTF-8 使用,还是必须将它们转换为 wchar_t* 字符串?

最佳答案

您需要测试您的编译器和您正在使用的系统,但理论上,如果您的系统具有 UTF-8 语言环境,它将受到支持。以下测试在 Clang/OS X 上为我返回了 true。

bool test_unicode()
{
std::locale old;
std::locale::global(std::locale("en_US.UTF-8"));

std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
bool result = std::regex_match(std::string("abcdéfg"), pattern);

std::locale::global(old);

return result;
}

注意:这是在一个 UTF-8 编码的文件中编译的。


为了安全起见,我还使用了带有显式十六进制版本的字符串。它也有效。

bool test_unicode2()
{
std::locale old;
std::locale::global(std::locale("en_US.UTF-8"));

std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
bool result = std::regex_match(std::string("abcd\xC3\xA9""fg"), pattern);

std::locale::global(old);

return result;
}

更新 test_unicode() 对我仍然有效

$ file regex-test.cpp 
regex-test.cpp: UTF-8 Unicode c program text

$ g++ --version
Configured with: --prefix=/Applications/Xcode-8.2.1.app/Contents/Developer/usr --with-gxx-include-dir=/usr/include/c++/4.2.1
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix
InstalledDir: /Applications/Xcode-8.2.1.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin

关于c++ - C++11 正则表达式是否适用于 UTF-8 字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11254232/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com