gpt4 book ai didi

python - 使用 Beautiful Soup 查找包含 unicode 字形的元素

转载 作者:太空宇宙 更新时间:2023-11-03 18:01:25 24 4
gpt4 key购买 nike

我正在使用 Beautiful Soup 来查找具有特定 unicode 字形 ( http://en.wikipedia.org/wiki/Miscellaneous_Symbols ) 的元素。我有一个 HTML 元素,如下所示:

<li>&#9733; mytext</li>

我已经尝试过:

# pattern = re.compile(r'&#9733)
pattern = re.compile(u'&#9733')
# pattern = re.compile('U+2605')
soup.find_all('li', text=pattern)

但在每种情况下我都会得到一个空列表。我做错了什么?

最佳答案

您需要提供 Unicode 代码点:

pattern = re.compile(u'\u2605')

请参阅Python string literal documentation .

演示:

>>> from bs4 import BeautifulSoup
>>> import re
>>> soup = BeautifulSoup('<li>&#9733; mytext</li>')
>>> pattern = re.compile(u'\u2605')
>>> soup.find_all('li', text=pattern)
[<li>★ mytext</li>]

关于python - 使用 Beautiful Soup 查找包含 unicode 字形的元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27625059/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com