gpt4 book ai didi

python - Scrapy 分页 XHR 400 错误请求

转载 作者:太空宇宙 更新时间:2023-11-03 14:44:08 25 4
gpt4 key购买 nike

我正在尝试从 https://www.magzter.com/magazines/listAllIssues/503 获取所有网址

在一组中,页面显示 12 本杂志并滚动分页并继续阅读接下来的 12 本杂志

调试后,接下来的请求如下

https://www.magzter.com/magazines/listAllIssues/503/12
https://www.magzter.com/magazines/listAllIssues/503/24

xml Request

但是通过

https://www.magzter.com/magazines/listAllIssues/503/12 获取请求
400 Bad Request

scrapy中是否有此场景的实现,请提供示例脚本。

或任何其他刺激无限滚动并与 scrapy 框架一起使用的库

最佳答案

问题在于该请求是 AJAX 请求,并且不发送 X-Requested-With: XMLHttpRequest header 会使其成为 400 错误请求。无法直接从 shell 命令行发送 header ,因此您需要启动 shell 并键入命令来获取带有 header 的请求

$ scrapy shell --nolog

>>> from scrapy import Request
>>> req = Request("https://www.magzter.com/magazines/listAllIssues/146/12", headers = {"X-Requested-With" : "XMLHttpRequest"})
>>> fetch(req)
>>> response.body
b'\r\n\t<div class="mag-wrap">\r\n \t<h3></h3>\r\n \t<ul class="mag-list main-magz">\r\n <li>\r\n <div class="cover-wrap"><a href="https://www.magzter.com/IN/EFY-Enterprises-Pvt-Ltd/Electronics-For-You/Science/183025" onclick="ga(

关于python - Scrapy 分页 XHR 400 错误请求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46389580/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com