gpt4 book ai didi

python - 如何通过匹配 BeautifulSoup 中元素属性中的文本来获取元素

转载 作者:行者123 更新时间:2023-12-01 05:51:36 25 4
gpt4 key购买 nike

我有这个代码

<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">&gt;</a>

我想抓取 a 元素并获取 href 。

如何将 title 属性与 Next Page 匹配

我想部分匹配 a 元素的 title 属性中的文本。

页面上有很多与它类似的a标签,唯一的区别是title属性包含“下一页或文本是>

最佳答案

您必须使用正则表达式来完成您想要的任务。

首先将整个标记作为字符串,并用它创建一个 BeautifulSoup 对象。

然后使用BeautifulSoup对象的.findAll方法,如下所示

import BeautifulSoup
import re

soup = BeautifulSoup('<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">&gt;</a>')

elements = soup.findAll('a', {'title':re.compile('Next Page.')})
# get all 'a' elements with 'title' attribute as 'Next Page something' into a list

for e in elements:
if str(e.string) == '>' or e.string == '&gt;': # check if string inside 'a' tag is '>'
print e['href']

关于python - 如何通过匹配 BeautifulSoup 中元素属性中的文本来获取元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14064186/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com