gpt4 book ai didi

python - 如何获取包含特定文本的类或 ID 的抓取 DIV

转载 作者:行者123 更新时间:2023-12-01 04:53:57 24 4
gpt4 key购买 nike

我从网站上抓取了一些 HTML

<div>
<div id="content1">
</div>
<div id="content3">
</div>
<div id="content22">
</div>
</div>

如何迭代 ID 以 content 开头的所有 DIV?

最佳答案

最简单的方法是使用 CSS selector :

soup.select('div[id^=content]')

^= 语法指定 id 属性值应以 content 开头。

您可以使用 regular expression filter 获得相同的结果作为 id 参数传入 element.find_all() :

import re

soup.find_all('div', id=re.compile('^content'))

演示:

>>> from bs4 import BeautifulSoup
>>> sample = '''\
... <div>
... <div id="content1">
... </div>
... <div id="content3">
... </div>
... <div id="content22">
... </div>
... </div>
... '''
>>> soup = BeautifulSoup(sample)
>>> soup.select('div[id^=content]')
[<div id="content1">
</div>, <div id="content3">
</div>, <div id="content22">
</div>]
>>> soup.find_all('div', id=re.compile('^content'))
[<div id="content1">
</div>, <div id="content3">
</div>, <div id="content22">
</div>]

关于python - 如何获取包含特定文本的类或 ID 的抓取 DIV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27875539/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com