gpt4 book ai didi

python - Beautiful Soup 使用正则表达式查找标签?

转载 作者:太空狗 更新时间:2023-10-29 16:58:42 29 4
gpt4 key购买 nike

我真的很希望能够让 Beautiful Soup 匹配任何标签列表,就像这样。我知道 attr 接受正则表达式,但是漂亮的汤中有什么东西可以让你这样做吗?

soup.findAll("(a|div)")

输出:

<a> ASDFS
<div> asdfasdf
<a> asdfsdf

我的目标是创建一个可以从站点抓取表格的抓取工具。有时标签的命名不一致,我希望能够输入标签列表来命名表格的“数据”部分。

最佳答案

请注意,您还可以使用正则表达式来搜索标签的属性。例如:

import re
from bs4 import BeautifulSoup

soup.find_all('a', {'href': re.compile(r'crummy\.com/')})

此示例查找所有 <a>链接到包含子字符串 'crummy.com' 的网站的标签.

关于python - Beautiful Soup 使用正则表达式查找标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24748445/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com