gpt4 book ai didi

Python请求和beautifulsoup4,仅收集 "href"链接

转载 作者:行者123 更新时间:2023-12-01 03:28:26 24 4
gpt4 key购买 nike

from bs4 import BeautifulSoup
import requests

url = "https://www.brightscope.com/ratings"
headers = {'User-Agent':'Mozilla/5.0'}
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")

data = soup.find_all('li',{"class":"more-data"})+soup.findAll('li', {"class":"more-data topten"})
for item in data:
print(item('a'))

我只想打印 href,但我似乎无法弄清楚这一点。我看过不同的视频,但无法理解。我究竟做错了什么?我知道上面的代码正在打印“a”标签的内容,但我只需要 href 的内容。

最佳答案

您需要的是使用类似字典的方式访问元素的属性:

[a['href'] for a in item('a')]
<小时/>

而且,作为旁注,您可以改进定位 li 元素的方式,而不是:

data = soup.find_all('li',{"class":"more-data"})+soup.findAll('li', {"class":"more-data topten"})
for item in data:
print(item('a'))

你可以这样做:

links = soup.select("li.more-data a")
for a in links:
print(a["href"])

其中 li.more-data aCSS selector它将与 li 元素内的所有 a 元素与 more-data 类相匹配。

关于Python请求和beautifulsoup4,仅收集 "href"链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41215636/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com