gpt4 book ai didi

python - 在Python中使用循环抓取多个页面

转载 作者:行者123 更新时间:2023-12-01 02:32:01 24 4
gpt4 key购买 nike

我成功抓取了网站的第一页,但是当我尝试抓取多个页面时,它成功了,但结果完全错误。

代码:

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
for num in range(1,15):
res = requests.get('http://www.abcde.com/Part?Page={num}&s=9&type=%8172653').text
soup = BeautifulSoup(res,"lxml")
for item in soup.select(".article-title"):
print(urljoin('http://www.abcde.com',item['href']))

它只改变了每个页面的网址中的一个数字,例如,

http://www.abcde.com/Part?Page=1&s=9&type=%8172653
http://www.abcde.com/Part?Page=2&s=9&type=%8172653

我总共有 14 页。

我的代码可以工作,但它只是重复打印第一页的网址 14 次。我期望的结果是使用循环从不同页面打印出所有不同的 url。

最佳答案

正如 Jon Clements 所指出的,网址格式如下:

res = requests.get('http://www.abcde.com/Part?Page={}&s=9&type=%8172653'.format(num)).text

您可以在 pyformat.info 找到有关 python 格式字符串的更多信息。 .

关于python - 在Python中使用循环抓取多个页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46706805/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com