redirect - Scrapy 处理 302 响应代码-6ren

redirect - Scrapy 处理 302 响应代码

转载作者：行者123 更新时间：2023-12-04 22:58:12

28

4

我正在使用一个简单的 CrawlSpider实现抓取网站。默认 Scrapy遵循 302 重定向到目标位置，并忽略最初请求的链接。在一个特定的站点上，我遇到了一个 302 重定向到另一个页面的页面。我的目标是记录原始链接(响应 302)和目标位置(在 HTTP 响应 header 中指定)并在 parse_item 中处理它们。 CrawlSpider的方法.请指导我，我怎样才能做到这一点？

我遇到了提到使用 dont_redirect=True 的解决方案或 REDIRECT_ENABLE=False但我实际上并不想忽略重定向，事实上我也想考虑(即不忽略)重定向页面。

例如:我访问 http://www.example.com/page1它发送 302 重定向 HTTP 响应并重定向到 http://www.example.com/page2 .默认情况下，scrapy 忽略 page1 , 关注 page2并对其进行处理。我想同时处理 page1和 page2在 parse_item .

编辑
我已经在使用 handle_httpstatus_list = [500, 404]在蜘蛛的类定义中处理 500和 404 parse_item 中的响应代码，但同样不适用于 302如果我在 handle_httpstatus_list 中指定它.

最佳答案

Scrapy 1.0.5(我写这些行时的最新官方)不使用 handle_httpstatus_list在内置的 RedirectMiddleware 中——见 this issue .
从 Scrapy 1.1.0 ( 1.1.0rc1 is available ), the issue is fixed .

即使你禁用了重定向，你仍然可以在你的回调中模仿它的行为，检查 Location header 并返回 Request到重定向

示例蜘蛛:

$ cat redirecttest.py
import scrapy


class RedirectTest(scrapy.Spider):

    name = "redirecttest"
    start_urls = [
        'http://httpbin.org/get',
        'https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip'
    ]
    handle_httpstatus_list = [302]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, dont_filter=True, callback=self.parse_page)

    def parse_page(self, response):
        self.logger.debug("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))
        if response.status in (302,) and 'Location' in response.headers:
            self.logger.debug("(parse_page) Location header: %r" % response.headers['Location'])
            yield scrapy.Request(
                response.urljoin(response.headers['Location']),
                callback=self.parse_page)

控制台日志:

$ scrapy runspider redirecttest.py -s REDIRECT_ENABLED=0
[scrapy] INFO: Scrapy 1.0.5 started (bot: scrapybot)
[scrapy] INFO: Optional features available: ssl, http11
[scrapy] INFO: Overridden settings: {'REDIRECT_ENABLED': '0'}
[scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
[scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
[scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
[scrapy] INFO: Enabled item pipelines: 
[scrapy] INFO: Spider opened
[scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
[scrapy] DEBUG: Crawled (200) <GET http://httpbin.org/get> (referer: None)
[redirecttest] DEBUG: (parse_page) response: status=200, URL=http://httpbin.org/get
[scrapy] DEBUG: Crawled (302) <GET https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip> (referer: None)
[redirecttest] DEBUG: (parse_page) response: status=302, URL=https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip
[redirecttest] DEBUG: (parse_page) Location header: 'http://httpbin.org/ip'
[scrapy] DEBUG: Crawled (200) <GET http://httpbin.org/ip> (referer: https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip)
[redirecttest] DEBUG: (parse_page) response: status=200, URL=http://httpbin.org/ip
[scrapy] INFO: Closing spider (finished)

请注意，您需要 http_handlestatus_list里面有 302，否则，你会看到这种日志(来自 HttpErrorMiddleware ):

[scrapy] DEBUG: Crawled (302) <GET https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip> (referer: None)
[scrapy] DEBUG: Ignoring response <302 https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip>: HTTP status code is not handled or not allowed

关于redirect - Scrapy 处理 302 响应代码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35330707/

28

4

0

文章推荐： visual-studio - 在 Windows 上构建 64 位 Z3 时出错

文章推荐： json - 为什么这个 getOrElse 语句返回 ANY 类型？

文章推荐： html - 如何在 HTML5 中使用 " "

文章推荐： r - 如何在 R 中的函数内部使用 dplyr/magrittr 的管道？

redirect - 使用 jmeter 录制时何时使用 "Follow Redirects"和 "Redirect Automatically"。
我想知道的区别按照重定向和自动重定向使用 Jmeter 录制时。当与一起使用时，这两者会有什么影响？从 HTML 中检索所有嵌入的资源最佳答案 Redirect automatically
redirect - 如何在Wordpress插件的管理菜单页面中实现Post-Redirect-Get？
我正在编写一个 WordPress 插件，它添加了一个管理菜单页面。页面中有一个表格。提交表单后，插件将写入数据库。但后来我遇到了一个问题:每当用户重新加载页面时，都会询问他/她是否再次发送 POST
redirect - 这段代码中我的 $this->redirect(...) 调用有什么问题？
我有两个扩展程序，我想在某个操作中从一个扩展程序重定向到另一个扩展程序。这是我的 bpsmessagecentre 扩展的 bpsmessagecontroller 的 saveAction 中的重定
php - 何时使用 : redirect ('/' ) vs. redirect()->route ('home' ) vs. redirect()->home()？
当我有这个命名路线时:Route::get('/', 'IndexController@index')->name('home'); 然后在任何 Controller 的任何 Action 方法中；当
redirect - Lumen + nginx = error 500, rewrite or internal redirection cycle while internally redirecting to "/index.php"
我正在尝试设置 Lumen - 建立在 Laravel 组件之上的“微框架”。服务器端有 nginx + php-fpm。这是我的 nginx 配置: server { server_nam
redirect - Response.Redirect()与Response.RedirectPermanent()
我是ASP.Net 4.0的新手，并且看到了一个名为Response.RedirectPermanent()的新功能。我检查了几篇文章，但是我无法清楚地理解Response.RedirectPerma
redirect - EmberJS : How to Redirect from Route, 保留查询参数
我想从路线 /new 重定向，并保留 new 的查询参数路线: 据我所知，唯一可以访问queryParams的地方位于model内路线的钩子(Hook)。但我想重定向到 beforeModel ho
redirect - Liferay Portlet和JSF : Redirect during Render Phase
我在实现简单的HTTP重定向时遇到问题。我使用Liferay 6.0.6，我们的 portlet 是使用 JSF2.0 /PortletFaces构建的。我想在加载 View 时(而不是在触发操作
redirect - Cloudflare 和 nginx : Too many redirects
我正在尝试设置 NGINX 和 cloudflare。我在谷歌上读过这个，但没有解决我的问题 .我的 cloudflare 目前处于事件状态。我删除了 cloudflare 中的所有页面规则，但之前
redirect - Nginx 子域 : Redirect/. Let's Encrypt 的已知路径
我有一个运行两个子域的 Nginx 服务器。其中一个使用 proxy_pass 将所有内容重定向到 Meteor 应用程序，另一个子域仅使用 Laravel，但位于与普通域不同的目录中。因此，当我启
redirect - FOS用户包 : Redirect the user after register with EventListener
我想在注册后将用户重定向到另一个表单，然后他才能访问我网站上的任何内容(例如 https://github.com/FriendsOfSymfony/FOSUserBundle/issues/387
redirect - 支柱 : Redirect back to an empty form
我有一个提交到详细信息页面的表单，其中有一个按钮。我在我的映射文件中放置了一个 Action 以将一个 Action 链接到该按钮，该按钮应将用户发送回表单并将其清空。我可以正确地重定向它，但表单仍
php 301 redirects 实际上做的是 302 redirect
我一直在谷歌上搜索这个，但似乎没有人知道答案。这篇文章很好地描述了这个问题: http://www.mail-archive.com/php-general@lists.php.net/msg198
ruby - Sinatra中 `redirect`和 `redirect to`的区别
在 Sinatra 中使用 redirect 和 redirect to 有什么区别？他们似乎都默认为相同的状态代码。 to '/url' 位是否只是为了使方法更具可读性的一些语法上的好处？最佳答案
jsf - p :commandButton don't redirect when ExternalContext#redirect() is called
这是一个可以抛出异常的示例按钮: 在我的 ExceptionHandler我有: FacesContext.getCurrentInstance().getExternalContext
redirect - 谷歌分析 : cross domain tracking + 301 redirect
我现在在同一家公司的多个网站上工作，每个网站都通过顶部标题上的链接列表连接到其他网站。访问跟踪是通过谷歌分析完成的，一切似乎都运行良好。太糟糕了，他们现在似乎对附加在 url 底部以获得跨域跟踪的所
javascript - rails : Controller redirect vs Javascript redirect
目前我正在开发一个项目，该项目在提交时对表单执行一些客户端验证(使用 Javascript)，然后基于 Ajax 请求，或者进行 window.location.href 重定向或提交表单以供 Con
redirect - Gitlab 综合 : how to redirect all requests to another domain
我将我的 Gitlab 迁移到了新域。我想将所有 HTTP 请求从旧 URL 重定向到新 URL。两个域当前都指向同一服务器(使用 A DNS 记录)。我使用 Gitlab Omnibus 包，并捆
redirect - nginx redirect :/*/to/*. html (add .html to url)
我想在每个以“/”结尾的文档中添加“.html”，但主页除外。我尝试了一些不同的方法，使用 nginx 重写和返回 301，但我没有让它工作。附上我做的最后一个版本，它正在做/*/.html 但第二
redirect - nginx redirect :/*/to/*. html (add .html to url)
我想在每个以“/”结尾的文档中添加“.html”，但主页除外。我尝试了一些不同的方法，使用 nginx 重写和返回 301，但我没有让它工作。附上我做的最后一个版本，它正在做/*/.html 但第二

首页

博学

6Ren·AI

商城

redirect - Scrapy 处理 302 响应代码