gpt4 book ai didi

regex - 有没有办法匹配任何 Unicode 字母字符?

转载 作者:行者123 更新时间:2023-12-04 01:27:09 25 4
gpt4 key购买 nike

我有一些文档通过 OCR 从 PDF 转换为 HTML。正因为如此,他们最终有很多随机的 unicode 标点符号,其中转换器搞砸了(即省略号等)。他们也正确地有一堆非英语,但仍然是字母字符,如é和俄语字符等......

有没有办法制作一个正则表达式来匹配任何 unicode 字母字符(来自任何语言的字母表)?或者只匹配非字母字符?任何一个都会非常有帮助和很棒。我正在使用 Perl,如果这有什么改变的话。谢谢!

最佳答案

查看 Unicode 字符属性:http://www.regular-expressions.info/unicode.html#prop .我想你正在寻找的可能是

\p{L}

这将匹配任何字母或表意文字。您可能还想包含带有标记的字母,因此您可以这样做
\p{L}\p{M}*

无论如何,第一个链接中详细介绍了所有不同类型的字符属性。

编辑:您可能还想查看讨论\w 是否匹配 unicode 字符的 Stack Overflow 答案。他们建议您也可以使用\p{Word} 或\p{Alnum}: Does \w match all alphanumeric characters defined in the Unicode standard?

关于regex - 有没有办法匹配任何 Unicode 字母字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6005459/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com