gpt4 book ai didi

python - BeautifulSoup - 如果在某些 div 类中,则不要抓取标签

转载 作者:行者123 更新时间:2023-11-28 15:14:50 25 4
gpt4 key购买 nike

我需要从大约 2000 个没有通用页面结构的网站中抓取纯文本,我认为可能很难使用一个脚本进行抓取。

因此,作为“初学者”,我使用 BeautifulSoup 进行了几次尝试和错误。目前,我通过查看某些标签(

和所有标题标签)之间的内容设法抓取了一些纯文本,内容如下:

soup.findAll(['p', re.compile('h[0-9]'), 'title'])

但是,有时我不想从中获取某些 rss/news-feed 的文本。从我在页面的源代码中看到的,它被一个 css div 类包围。所以我的问题是,如果我可以告诉上面的命令不要抓取被某个 div 类包围的文本。

最佳答案

您可以将函数用作过滤器:

`def my_filter(tag):
return (tag.name == 'p' or re.compile('h[0-9]').match(tag.name) or tag.name== 'title') and (tag.parent['class'] != 'certain_div_class' or not tag.parent.has_attr('class'))

my_tags = soup.findAll(my_filter)`

关于python - BeautifulSoup - 如果在某些 div 类中,则不要抓取标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47477753/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com