gpt4 book ai didi

python - 用 BeautifulSoup 抓取元内容

转载 作者:行者123 更新时间:2023-12-04 14:53:39 30 4
gpt4 key购买 nike

我需要在这里使用正则表达式吗?

我想要的内容如下:

<meta content="text I want to grab" name="description"/>

但是,有许多对象以“meta content=”开头,我想要以 name="description"结尾的对象。我对正则表达式很陌生,但我认为 BS 能够处理这个问题。

最佳答案

假设您能够将 HTML 内容读入一个变量并将该变量命名为 html ,你必须使用beautifulsoup解析HTML:

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

然后,搜索 <meta content="text I want to grab" name="description"/> ,您必须找到名称为 'meta' 的标签和属性 name='description' :
def is_meta_description(tag):
return tag.name == 'meta' and tag['name'] == 'description'

meta_tag = soup.find(is_meta_description)

您正在尝试获取 content标签的属性,所以:
content = meta_tag['content']

既然是简单的搜索,那么还有更简单的方法来查找标签:
meta_tag = soup.find('meta', attrs={'name': 'description'})

关于python - 用 BeautifulSoup 抓取元内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51996139/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com