gpt4 book ai didi

Python - bs4 - webscraping - 无法从网站获取整个 URL

转载 作者:太空宇宙 更新时间:2023-11-03 19:42:01 25 4
gpt4 key购买 nike

我正在尝试从网站上抓取广告的 URL 链接。我在 jupyter 笔记本中有以下代码

from bs4 import BeautifulSoup
import requests
link = "https://www.marktplaats.nl/l/auto-s/bmw/p/1/"
data = requests.get(link)
soup = BeautifulSoup(data.content,"html.parser")

car1 = soup.findAll('li',{'class':'mp-Listing mp-Listing--list-item'})[0]

car1.a['href']

当我运行此代码时,我得到以下网址:

'/a/auto-s/bmw/a1322384400-bmw-x5-s-drive-executive-automaat-leder-navigatie-nr-038.html'

我认为这是一个相对 URL,而不是完整 URL。当我检查页面时,我确实看到了这个 URL,但是当我将鼠标放在它上面时,我可以看到整个 URL。我想抓取整个网址,有人可以帮助我吗?

我添加了两张图片,一张显示缩短的网址,另一张显示完整的网址

缩短的 URL 图像:

完整 URL 图片:

最佳答案

将我的答案作为评论,以便可以将问题标记为已回答:)。这不是相对 URL,而是绝对 URL(因为它从根文件夹开始,以正斜杠开头)。要获取完整的网址,只需在前面附加域名即可“https://www.martkplaats.nl ” + car1.a['href']

关于Python - bs4 - webscraping - 无法从网站获取整个 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60366378/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com