gpt4 book ai didi

python - 如何使用请求库来网络抓取已抓取的链接列表

转载 作者:行者123 更新时间:2023-12-01 00:45:35 25 4
gpt4 key购买 nike

我从网站 ( https://www.gmcameetings.co.uk ) 中抓取了一组链接 - 所有链接都包括单词 session ,即 session 文件,现在包含在“meeting_links”中。我现在需要跟踪每个链接以抓取其中的更多链接。

我已经重新使用请求库并尝试了

r2 = requests.get("meeting_links") 

但它返回以下错误:

MissingSchema: Invalid URL 'list_meeting_links': No schema supplied. 
Perhaps you meant http://list_meeting_links?

我已将其更改为但仍然没有区别。

这是我到目前为止的代码以及我如何从我想要的第一个网址获取链接。

# importing libaries and defining
import requests
import urllib.request
import time
from bs4 import BeautifulSoup as bs

# set url
url = "https://www.gmcameetings.co.uk/"

# grab html
r = requests.get(url)
page = r.text
soup = bs(page,'lxml')

# creating folder to store pfds - if not create seperate folder
folder_location = r'E:\Internship\WORK'

# getting all meeting href off url
meeting_links = soup.find_all('a',href='TRUE')
for link in meeting_links:
print(link['href'])
if link['href'].find('/meetings/')>1:
print("Meeting!")

#second set of links
r2 = requests.get("meeting_links")

在再次开始使用请求库之前,我是否需要对“meeting_links”进行一些操作?我完全迷失了。

最佳答案

据我了解,您的新请求可能在这里:

for link in meeting_links:
if link['href'].find('/meetings/')>1:
r2 = requests.get(link['href'])

<Do something with the request>

因为看起来您正在尝试将字符串传递给 requests 方法。请求方法应如下所示:

requests.get('https://example.com')

关于python - 如何使用请求库来网络抓取已抓取的链接列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57005657/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com