- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用一个简单的 CrawlSpider
实现抓取网站。默认 Scrapy
遵循 302 重定向到目标位置,并忽略最初请求的链接。在一个特定的站点上,我遇到了一个 302 重定向到另一个页面的页面。我的目标是记录原始链接(响应 302)和目标位置(在 HTTP 响应 header 中指定)并在 parse_item
中处理它们。 CrawlSpider
的方法.请指导我,我怎样才能做到这一点?
我遇到了提到使用 dont_redirect=True
的解决方案或 REDIRECT_ENABLE=False
但我实际上并不想忽略重定向,事实上我也想考虑(即不忽略)重定向页面。
例如:我访问 http://www.example.com/page1
它发送 302 重定向 HTTP 响应并重定向到 http://www.example.com/page2
.默认情况下,scrapy 忽略 page1
, 关注 page2
并对其进行处理。我想同时处理 page1
和 page2
在 parse_item
.
编辑
我已经在使用 handle_httpstatus_list = [500, 404]
在蜘蛛的类定义中处理 500
和 404
parse_item
中的响应代码,但同样不适用于 302
如果我在 handle_httpstatus_list
中指定它.
最佳答案
Scrapy 1.0.5(我写这些行时的最新官方)不使用 handle_httpstatus_list
在内置的 RedirectMiddleware 中——见 this issue .
从 Scrapy 1.1.0 ( 1.1.0rc1 is available ), the issue is fixed .
即使你禁用了重定向,你仍然可以在你的回调中模仿它的行为,检查 Location
header 并返回 Request
到重定向
示例蜘蛛:
$ cat redirecttest.py
import scrapy
class RedirectTest(scrapy.Spider):
name = "redirecttest"
start_urls = [
'http://httpbin.org/get',
'https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip'
]
handle_httpstatus_list = [302]
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(url, dont_filter=True, callback=self.parse_page)
def parse_page(self, response):
self.logger.debug("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))
if response.status in (302,) and 'Location' in response.headers:
self.logger.debug("(parse_page) Location header: %r" % response.headers['Location'])
yield scrapy.Request(
response.urljoin(response.headers['Location']),
callback=self.parse_page)
$ scrapy runspider redirecttest.py -s REDIRECT_ENABLED=0
[scrapy] INFO: Scrapy 1.0.5 started (bot: scrapybot)
[scrapy] INFO: Optional features available: ssl, http11
[scrapy] INFO: Overridden settings: {'REDIRECT_ENABLED': '0'}
[scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
[scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
[scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
[scrapy] INFO: Enabled item pipelines:
[scrapy] INFO: Spider opened
[scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
[scrapy] DEBUG: Crawled (200) <GET http://httpbin.org/get> (referer: None)
[redirecttest] DEBUG: (parse_page) response: status=200, URL=http://httpbin.org/get
[scrapy] DEBUG: Crawled (302) <GET https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip> (referer: None)
[redirecttest] DEBUG: (parse_page) response: status=302, URL=https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip
[redirecttest] DEBUG: (parse_page) Location header: 'http://httpbin.org/ip'
[scrapy] DEBUG: Crawled (200) <GET http://httpbin.org/ip> (referer: https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip)
[redirecttest] DEBUG: (parse_page) response: status=200, URL=http://httpbin.org/ip
[scrapy] INFO: Closing spider (finished)
http_handlestatus_list
里面有 302,否则,你会看到这种日志(来自
HttpErrorMiddleware
):
[scrapy] DEBUG: Crawled (302) <GET https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip> (referer: None)
[scrapy] DEBUG: Ignoring response <302 https://httpbin.org/redirect-to?url=http%3A%2F%2Fhttpbin.org%2Fip>: HTTP status code is not handled or not allowed
关于redirect - Scrapy 处理 302 响应代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35330707/
我想知道的区别按照重定向 和 自动重定向 使用 Jmeter 录制时。 当与 一起使用时,这两者会有什么影响?从 HTML 中检索所有嵌入的资源 最佳答案 Redirect automatically
我正在编写一个 WordPress 插件,它添加了一个管理菜单页面。页面中有一个表格。提交表单后,插件将写入数据库。但后来我遇到了一个问题:每当用户重新加载页面时,都会询问他/她是否再次发送 POST
我有两个扩展程序,我想在某个操作中从一个扩展程序重定向到另一个扩展程序。这是我的 bpsmessagecentre 扩展的 bpsmessagecontroller 的 saveAction 中的重定
当我有这个命名路线时:Route::get('/', 'IndexController@index')->name('home'); 然后在任何 Controller 的任何 Action 方法中;当
我正在尝试设置 Lumen - 建立在 Laravel 组件之上的“微框架”。服务器端有 nginx + php-fpm。 这是我的 nginx 配置: server { server_nam
我是ASP.Net 4.0的新手,并且看到了一个名为Response.RedirectPermanent()的新功能。我检查了几篇文章,但是我无法清楚地理解Response.RedirectPerma
我想从路线 /new 重定向,并保留 new 的查询参数路线: 据我所知,唯一可以访问queryParams的地方位于model内路线的钩子(Hook)。 但我想重定向到 beforeModel ho
我在实现简单的HTTP重定向时遇到问题。 我使用Liferay 6.0.6,我们的 portlet 是使用 JSF2.0 /PortletFaces构建的。 我想在加载 View 时(而不是在触发操作
我正在尝试设置 NGINX 和 cloudflare。 我在谷歌上读过这个,但没有解决我的问题 .我的 cloudflare 目前处于事件状态。我删除了 cloudflare 中的所有页面规则,但之前
我有一个运行两个子域的 Nginx 服务器。其中一个使用 proxy_pass 将所有内容重定向到 Meteor 应用程序,另一个子域仅使用 Laravel,但位于与普通域不同的目录中。 因此,当我启
我想在注册后将用户重定向到另一个表单,然后他才能访问我网站上的任何内容(例如 https://github.com/FriendsOfSymfony/FOSUserBundle/issues/387
我有一个提交到详细信息页面的表单,其中有一个按钮。我在我的映射文件中放置了一个 Action 以将一个 Action 链接到该按钮,该按钮应将用户发送回表单并将其清空。 我可以正确地重定向它,但表单仍
我一直在谷歌上搜索这个,但似乎没有人知道答案。 这篇文章很好地描述了这个问题: http://www.mail-archive.com/php-general@lists.php.net/msg198
在 Sinatra 中使用 redirect 和 redirect to 有什么区别?他们似乎都默认为相同的状态代码。 to '/url' 位是否只是为了使方法更具可读性的一些语法上的好处? 最佳答案
这是一个可以抛出异常的示例按钮: 在我的 ExceptionHandler我有: FacesContext.getCurrentInstance().getExternalContext
我现在在同一家公司的多个网站上工作,每个网站都通过顶部标题上的链接列表连接到其他网站。 访问跟踪是通过谷歌分析完成的,一切似乎都运行良好。太糟糕了,他们现在似乎对附加在 url 底部以获得跨域跟踪的所
目前我正在开发一个项目,该项目在提交时对表单执行一些客户端验证(使用 Javascript),然后基于 Ajax 请求,或者进行 window.location.href 重定向或提交表单以供 Con
我将我的 Gitlab 迁移到了新域。我想将所有 HTTP 请求从旧 URL 重定向到新 URL。两个域当前都指向同一服务器(使用 A DNS 记录)。 我使用 Gitlab Omnibus 包,并捆
我想在每个以“/”结尾的文档中添加“.html”,但主页除外。 我尝试了一些不同的方法,使用 nginx 重写和返回 301,但我没有让它工作。附上我做的最后一个版本,它正在做/*/.html 但第二
我想在每个以“/”结尾的文档中添加“.html”,但主页除外。 我尝试了一些不同的方法,使用 nginx 重写和返回 301,但我没有让它工作。附上我做的最后一个版本,它正在做/*/.html 但第二
我是一名优秀的程序员,十分优秀!