gpt4 book ai didi

beautifulsoup - Beautiful Soup - 如何获得 href

转载 作者:行者123 更新时间:2023-12-02 02:22:45 29 4
gpt4 key购买 nike

我似乎无法从以下 html 汤中提取 href(页面上只有一个 <strong>Website:</strong>):

<div id='id_Website'>
<strong>Website:</strong>
<a href='http://google.com' target='_blank' rel='nofollow'>www.google.com</a>
</div></div><div>

这是我认为应该可行的

href = soup.find("strong" ,text=re.compile(r'Website')).next["href"]

最佳答案

.next在这种情况下是 NavigableString包含 <strong> 之间的空格标签和 <a>标签。此外,text=属性用于匹配 NavigableString s,而不是元素。

以下是你想要的,我认为:

import re
from BeautifulSoup import BeautifulSoup

html = '''<div id='id_Website'>
<strong>Website:</strong>
<a href='http://google.com' target='_blank' rel='nofollow'>www.google.com</a>
</div></div><div>'''

soup = BeautifulSoup(html)

for t in soup.findAll(text=re.compile(r'Website:')):
# Find the parent of the NavigableString, and see
# whether that's a <strong>:
s = t.parent
if s.name == 'strong':
print s.nextSibling.nextSibling['href']

...但这不是很可靠。如果封闭 div有一个可预测的 ID,那么最好找到它,然后找到第一个 <a>其中的元素。

关于beautifulsoup - Beautiful Soup - 如何获得 href,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7388246/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com