gpt4 book ai didi

python - 抓取具有多个链接的页面上的特定链接?

转载 作者:太空宇宙 更新时间:2023-11-03 17:06:11 25 4
gpt4 key购买 nike

我试图收集一个特定的链接,以便稍后在整个脚本中访问它,但是我正在抓取的页面上有很多链接,并且它们都具有相同的 a href 标记。

如何具体选择一个?该网站是 bbb.org,我的代码如下。

例如,在 bbb 上搜索 lamps,我想收集嵌入企业名称的链接,以便稍后访问他们的个人资料。

#!/usr/bin/python

import requests
from bs4 import BeautifulSoup

def bbb_spider(max_pages):
bus_cat = raw_input('Enter a business category: ')
pages = 1
while pages <= max_pages:
url = 'http://www.bbb.org/search/?type=category&input=' + str(bus_cat) + '&page=' + str(pages)
sauce_code = requests.get(url)
plain_text = sauce_code.text
soup = BeautifulSoup(plain_text, "html.parser")
for link in soup.findAll('a'):
href = link.get('href')
print(href)
pages += 1

最佳答案

您需要位于搜索结果表内的 h4 元素内的链接。有不同的方法可以找到它们,但我会做一个 CSS selector :

soup.select("table.search-results-table tr h4 a")

关于python - 抓取具有多个链接的页面上的特定链接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34573485/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com