gpt4 book ai didi

python - 如何使用 beautifulsoup 获取重定向 html?

转载 作者:太空宇宙 更新时间:2023-11-04 10:33:34 25 4
gpt4 key购买 nike

我正在查看具有以下 header 的网络文件。如何使用 bs4 获取 google.com 页面的内容?

<head>
<meta http-equiv="refresh" content="5;url=http://google.com"/>
</head>

谢谢!

最佳答案

使用find标签名称metaattrs具有已知的固定属性,即http-equiv需要具有 refresh 的值。从结果集中获取第一个这样的元素,并获取其 'content' 属性的值,然后将其解析为 url。

因此你得到:

>>> fragment = """<head><meta http-equiv="refresh" content="5;url=http://google.com"/></head>"""
>>> soup = BeautifulSoup(fragment)
>>> element = soup.find('meta', attrs={'http-equiv': 'refresh'})
>>> element
<meta content="5;url=http://google.com" http-equiv="refresh"/>

>>> refresh_content = element['content']
>>> refresh_content
u'5;url=http://google.com'

>>> url = refresh_content.partition('=')[2]
>>> url
u'http://google.com'

关于python - 如何使用 beautifulsoup 获取重定向 html?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24897373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com