作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一些文档通过 OCR 从 PDF 转换为 HTML。正因为如此,他们最终有很多随机的 unicode 标点符号,其中转换器搞砸了(即省略号等)。他们也正确地有一堆非英语,但仍然是字母字符,如é和俄语字符等......
有没有办法制作一个正则表达式来匹配任何 unicode 字母字符(来自任何语言的字母表)?或者只匹配非字母字符?任何一个都会非常有帮助和很棒。我正在使用 Perl,如果这有什么改变的话。谢谢!
最佳答案
查看 Unicode 字符属性:http://www.regular-expressions.info/unicode.html#prop .我想你正在寻找的可能是
\p{L}
\p{L}\p{M}*
关于regex - 有没有办法匹配任何 Unicode 字母字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6005459/
我是一名优秀的程序员,十分优秀!