python - 为什么 "\p{L}"在此正则表达式中不起作用？-6ren

python - 为什么 "\p{L}"在此正则表达式中不起作用？

转载作者：太空宇宙更新时间：2023-11-04 00:58:06

25

4

操作系统:Windows 7。Jython 2.7.0“最终版”。

for token in sorted_cased.keys():
    freq = sorted_cased[ token ]
    if freq > 1:
        print( 'token |%s| unicode? %s' % ( token, isinstance( token, unicode ), ) )
        if re.search( ur'\p{L}+', token ):
            print( '  # cased token |%s| freq %d' % ( token, freq, ))

sorted_cased 是一个显示标记出现频率的字典。在这里，我试图清除出现频率 > 1 的单词(仅限 unicode 字符)。(注意我使用的是 re.match 而不是 search 但 search 应该在 token)

中检测到事件 1，例如\p{L}

示例输出:

token |Management| unicode? True
token |n| unicode? True
token |identifiés| unicode? True
token |décrites| unicode? True
token |agissant| unicode? True
token |tout| unicode? True
token |sociétés| unicode? True

没有人认识到其中有一个 [p{L}]。我尝试了各种排列组合:双引号、添加 flags=re.UNICODE 等。

稍后我被要求解释为什么这不能归类为 How to implement \p{L} in python regex 的副本.它可以，但是......另一个问题的答案并没有引起人们注意使用REGEX MODULE(旧版本？非常新的版本？注意它们是不同的)而不是< strong>RE 模块。为了拯救 future 遇到这个问题的人的毛囊和理智，我请求允许保留当前段落，尽管这个问题被“欺骗”了。

我还尝试安装 Pypi 正则表达式模块 在 JYTHON 下失败(使用 pip)。使用 java.util.regex 可能更好。

最佳答案

如果您可以访问 Java java.util.regex，最好的选择是使用内置的 \p{L} 类。

Python(包括 Jython 方言)不支持 \p{L} 和其他 Unicode 类别类。也不是 POSIX 字符类。

另一种选择是限制 \w 类，如 (?![\d_])\w 并使用 UNICODE 标志。 If UNICODE is set, this \w will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database. .这种替代方法有一个缺陷:它不能在字符类中使用。

另一个想法是使用 [^\W\d_](带有 re.U 标志)，它将匹配任何不是非单词的字符(\W)、数字(\d)和_ 字符。它将有效匹配任何 Unicode 字母。

关于python - 为什么 "\p{L}"在此正则表达式中不起作用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34117207/

25

4

0

文章推荐： javascript - Bootstrap 将元素一个接一个地放置

文章推荐： node.js - 让教程 SocketIO 正常工作

文章推荐： python - python 3.5 中的异步原始套接字

文章推荐： css - 无法将第二个元素发送到 flex 显示中的下一行

实例分析Try {} Catch{} 作用
今天有小伙伴给我留言问到，try{...}catch(){...}是什么意思？它用来干什么？简单的说他们是用来捕获异常的下面我们通过一个例子来详细讲解下
html - 列表社交媒体链接的 ARIA 作用
我正在努力提高网站的可访问性，但我不知道如何在页脚中标记社交媒体链接列表。这些链接指向我在 facecook、twitter 等上的帐户。我不想用 role="navigation" 标记这些链接，因
java.util.Timer SystemTime 作用？
说现在是 6 点，我有一个 Timer 并在 10 点安排了一个 TimerTask。之后，System DateTime 被其他服务(例如 ntp)调整为 9 点钟。我仍然希望我的 TimerTas
php - 什么是 Doctrine hydration 作用？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
python入门:argparse浅析 nargs='+'作用
我就废话不多说了，大家还是直接看代码吧~ ? 1
Maven是什么?Maven的概念+作用+仓库的介绍+常用命令的详解
Maven系列1 1.什么是Maven？ Maven是一个项目管理工具，它包含了一个对象模型。一组标准集合，一个依赖管理系统。和用来运行定义在生命周期阶段中插件目标和逻辑。核心功能 Mav

首页

博学

6Ren·AI

商城

python - 为什么 "\p{L}"在此正则表达式中不起作用？