gpt4 book ai didi

c++ - 如何为 cpp 中所有语言的整个单词匹配构建正则表达式?

转载 作者:太空狗 更新时间:2023-10-29 23:16:35 26 4
gpt4 key购买 nike

用于单词边界的 \b 正则表达式是否适用于所有语言的 cpp?还是只是拉丁字母?

如果不是 - 如何匹配整个单词,例如“תפוח”?

具体来说,我想到了类似这样的事情[^\s]תפוח[$\s] 但不确定 ^ 是否在这里被解释为否定或字符串的开头。 ..

我正在使用 PCRE 库。

最佳答案

您没有说明您使用的是什么正则表达式引擎。但无论如何你可能会考虑使用 boost regex ,因为它有一个包装器,可以与 ICU 库一起使用来处理 unicode。

documentation为此,您可以:

Create regular expressions that support various Unicode data properties, including character classification.

这意味着/b 和/B 应该适用于 ICU 支持的任何编码。

在 Unicode 合规性的“标准”部分,它说:

1.4 Simple Word Boundaries: Conforming: non-spacing marks are included in the set of word characters.

关于c++ - 如何为 cpp 中所有语言的整个单词匹配构建正则表达式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23133888/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com