gpt4 book ai didi

python - 使用 BeautifulSoup 获取没有标签的文本?

转载 作者:太空宇宙 更新时间:2023-11-04 10:23:32 25 4
gpt4 key购买 nike

我一直在使用 BeautifulSoup 来解析 HTML 文档,但似乎遇到了问题。我找到了一些需要提取的文本,但文本很普通。没有标签或任何东西。我不确定我是否需要使用 Regex 来代替它,因为考虑到它不包含任何标签,我不知道我是否可以使用 BeautifulSoup 获取文本。

<strike style="color: #777777">975</strike> 487 RP<div class="gs-container default-2-col">

我正在尝试提取“487”。

谢谢!

最佳答案

您可以使用上一个或下一个标签作为 anchor 来查找文本。例如,查找 <strike>元素,然后获取它旁边的文本节点:

from bs4 import BeautifulSoup

html = """<strike style="color: #777777">975</strike> 487 RP<div class="gs-container default-2-col">"""
soup = BeautifulSoup(html)

#find <strike> element first, then get text element next to it
result = soup.find('strike',{'style': 'color: #777777'}).findNextSibling(text=True)

print(result.encode('utf-8'))
#output : ' 487 RP'
#you can then do simple text manipulation/regex to clean up the result

请注意,以上代码只是为了演示,并不是为了完成您的全部任务。

关于python - 使用 BeautifulSoup 获取没有标签的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30825315/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com