gpt4 book ai didi

python-3.x - 我想用python抓取一个网站,但是我遇到了麻烦。 requests library 是可以的,但是 400 与 Scrapy,下面的代码

转载 作者:可可西里 更新时间:2023-11-01 11:23:54 24 4
gpt4 key购买 nike

我想用python爬一个网站,但是遇到了麻烦。 requests library 没问题,但是 Scrapy 是 400,下面的代码

import requests

urls = "https://pan.baidu.com/s/1sj1JLJv"
headers = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
"Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.5,en;q=0.3",
"Accept-Encoding": "gzip, deflate",
'Content-Length': '0',
"Connection": "keep-alive"<br>
}
print(str((requests.get(urls, headers=header)).content, 'utf-8'))


from scrapy_redis.spiders import RedisCrawlSpider
class baiduuSpider(RedisCrawlSpider):
...
...
...
urls = "https://pan.baidu.com/s/1sj1JLJv"
yield scrapy.Request(url = urls,headers = headers,callback = self.first_parse)

def first_parse(self, response):
print(response.body.decode('utf-8'))

我该如何解决这个问题

最佳答案

很抱歉,您不会成功,因为页面是动态加载的。

enter image description here

有必要动态编译 javascript - Selenium、Splash

关于python-3.x - 我想用python抓取一个网站,但是我遇到了麻烦。 requests library 是可以的,但是 400 与 Scrapy,下面的代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54464670/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com