gpt4 book ai didi

python - 在正则表达式中使用 unicode char 代码

转载 作者:太空宇宙 更新时间:2023-11-03 17:25:44 24 4
gpt4 key购买 nike

简化我的任务,假设我想在某个网页中查找用希伯来语编写的任何单词。所以我知道希伯来语字符代码是 U+05D0U+05EA。我想写这样的东西:

expr = "[\u05D0-\u05EA]+"
url = "https://en.wikipedia.org/wiki/Category:Countries"

web_handle = urllib2.urlopen(url)
website_text = website_handle.read()
matches = sre.findall(exp, website_text)
for item in matches:
print item

我期望的输出是:

עברית

但是输出的是很多中文/日文字符。

最佳答案

您可以在字符类中使用 python 中 unicode 的标准表示形式:

re.findall([\u05D0-\u05EA], website_text,re.U)

关于python - 在正则表达式中使用 unicode char 代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32591304/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com