python - Scrapy 立即跟随 302 重定向-6ren

python - Scrapy 立即跟随 302 重定向

转载作者：太空宇宙更新时间：2023-11-04 05:54:20

25

4

我在所有链接都相似的 ASP 网站上使用 scrapy:

javascript:__doPostBack('gridID','Select$0')
javascript:__doPostBack('gridID','Select$1')
....

我可以使用 FormRequest 跟随任何记录的详细信息页面的链接:

    # Let's first grab all of the Details links -- we can get everything from them that we want
    for sel in response.xpath("//table[@id='gridID']/tr[td]")[0:20]:
        thisTarget  = sel.xpath("td")[0].xpath("a/@href").extract()[0].split("'")[1]
        thisArg     = sel.xpath("td")[0].xpath("a/@href").extract()[0].split("'")[3]
        yield scrapy.FormRequest.from_response( 
                response,
                formdata={'__EVENTTARGET'   : thisTarget, 
                          '__EVENTARGUMENT' : thisArg,
                          '__EVENTVALIDATION': response.xpath("//input[@id='__EVENTVALIDATION']/@value").extract()[0],
                          '__VIEWSTATE': response.xpath("//input[@id='__VIEWSTATE']/@value").extract()[0]
                         },
                dont_click=True, 
                callback=self.parseDetail,
                dont_filter=True
            )

但是当 scrapy 一次处理多个项目时，它会分批发出请求。一次五行会导致:

2015-02-20 22:41:19-0500 [spider] DEBUG: Redirecting (302) to <GET http://domain.com/ListingDetail.aspx> from <POST http://domain.com/Listing.aspx>
2015-02-20 22:41:20-0500 [spider] DEBUG: Redirecting (302) to <GET http://domain.com/ListingDetail.aspx> from <POST http://domain.com/Listing.aspx>
2015-02-20 22:41:20-0500 [spider] DEBUG: Redirecting (302) to <GET http://domain.com/ListingDetail.aspx> from <POST http://domain.com/Listing.aspx>
2015-02-20 22:41:21-0500 [spider] DEBUG: Redirecting (302) to <GET http://domain.com/ListingDetail.aspx> from <POST http://domain.com/Listing.aspx>
2015-02-20 22:41:22-0500 [spider] DEBUG: Redirecting (302) to <GET http://domain.com/ListingDetail.aspx> from <POST http://domain.com/Listing.aspx>
2015-02-20 22:41:22-0500 [spider] DEBUG: Crawled (200) <GET http://domain.com/ListingDetail.aspx> (referer: http://domain.com/Listing.aspx)
### Callback executed
2015-02-20 22:41:23-0500 [spider] DEBUG: Crawled (200) <GET http://domain.com/ListingDetail.aspx> (referer: http://domain.com/Listing.aspx)
### Callback executed
2015-02-20 22:41:23-0500 [spider] DEBUG: Crawled (200) <GET http://domain.com/ListingDetail.aspx> (referer: http://domain.com/Listing.aspx)
### Callback executed
2015-02-20 22:41:24-0500 [spider] DEBUG: Crawled (200) <GET http://domain.com/ListingDetail.aspx> (referer: http://domain.com/Listing.aspx)
### Callback executed
2015-02-20 22:41:24-0500 [spider] DEBUG: Crawled (200) <GET http://domain.com/ListingDetail.aspx> (referer: http://domain.com/Listing.aspx)
### Callback executed

这似乎导致所有 5 个响应都相同，我想这是某些 ASP 魔术的结果。

我尝试设置 REDIRECT_PRIORITY_ADJUST = 100 以给予重定向更高的优先级，但收效甚微。最好的做法是在 16 个初始请求后停止，并执行 16 个重定向，然后是另一批初始请求，依此类推....

当我在 scrapy shell 中手动执行操作时，通过 fetching 每个 FormRequest，立即处理重定向，我得到预期的响应，即使在连续获取多个请求时也是如此。

因此，我的问题:

有什么方法可以让 scrapy 处理请求一直到 HTTP 200 响应，并立即执行沿途的任何重定向？

或者...我的问题的任何其他可能不明显的解决方案？

最佳答案

我在使用 FormRequest 时遇到了同样的问题，网站发回 302 重定向。许多请求的响应都是相同的。它似乎是在下载器中间件之前，甚至是在 scrapy 请求和扭曲之间，因为我放置了一个自定义下载器中间件来查看响应和发出的请求。它有同样的问题。

使用以下 scrapy 设置找到了解决方法。

CONCURRENT_REQUESTS=1
CONCURRENT_REQUESTS_PER_DOMAIN=1

但应该有更好的方法。

关于python - Scrapy 立即跟随 302 重定向，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28641966/

25

4

0

文章推荐： python - PDB 不一致地识别变量

文章推荐： linux - Tasklet 如何工作？

文章推荐： linux - 在 Linux/Unix 中将密码从文件导入 CLI 命令参数

Mongodb - 查找耦合文档，其中 A 跟随 B，B 跟随 A
我试图在我的数据库中找到所有关注该用户的用户。 followers 集合有 3 个字段:_id、_t、_f。当一个用户关注另一个用户时，它会将他们的用户 ID 添加到 _f 并将目标用户的 ID 添
ios - 跟随 UICollectionViewCell
我有一个 UICollectionView，它由单元格中的 UIImagePickerControl 按钮填充，我希望跟随 Collection View 末尾的单元格通过屏幕，但仍允许用户滚动 -
seo - noindex，跟随？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 9 个月前。 Improv
c# - 跟随/剪辑到形状的文本？
好的，所以我知道如何将文本剪裁成特定的几何形状，但是文本不会根据剪裁自动换行，那么如果您有“勾选”作为几何/路径？是否需要手动添加适合每一行的文本框，然后根据适合/不适合的内容拆分文本？最佳答案
jquery - 跟随 JQuery 点击事件中的链接
我里面有链接 s，但我在所有上也有一个点击事件s。代码如下所示: $( document ).ready( function() { $( 'td.event' ).click( func
Python:跟随 "path"的元组？
短版: 是)我有的: 2 元组列表，例如 [("a", "b"), ("b", "c"), ("d", "e"), ("c", "d"), ("f", "g")]不一定按字母顺序排列我想要的是: 给
PHP Xpath 跟随 sibling
我正在尝试使用 xpath 来获取表的内容。表格看起来像这样 Stuff Contents Contents Stuff
jquery - 跟随 div 内的超链接
我有几个像这样的div: My Link 问题是，如果用户单击 div 而不是文本，则链接不会触发。这是我到目前为止所拥有的: $('#TopMenuBar .MenuList').click
javascript - jQuery fadeIn() 跟随 after()
我想要做一个链接到这个 .after() 的 .fadeIn() 动画，但这似乎不是这样做的方法。有什么建议吗？ $(clicked_item).parent().parent().parent().
android - 跟随 selectQuery 有什么问题吗？
int getIdForSong(Song song){ String selectQuery = "SELECT id FROM " + TABLE_SONG + " WHERE " + S
javascript - 在一定的滚动之后使侧面 div 跟随
现在右侧的 div 一直跟随滚动。如果我想让它在页面滚动到div的顶部时开始跟随滚动，并在向上滚动时让它保持在那里，我还需要做什么？ jsfiddle $(window).scroll(functio
CSS 绝对定位 - 跟随 Div
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and t
javascript - 跟随 Canvas 光标的放大镜
我正在为我的客户设计一件 T 恤，我使用 html5 Canvas 制作了它。衬衫设计师现在已经完成，但他要求我添加一个放大镜(类似这样的东西:http://mlens.musings.it/)。我在
c++ - gdbserver 跟随 child
我正在尝试调试远程主机上的 fork 进程，但每次都让 gdbserver 进程在子退出时结束。尝试在 .gdbinit 中设置“set follow-fork-mode child”，没有帮助。
html - 在可滚动内容上绝对 div 跟随
我正在制作一个带有滚动控件的响应式菜单。我有一个小问题，我的渐变和控件跟随，滚动时，你可以在我的 JSFiddle 中看到它. 我的菜单控件有我的 CSS #page .page-nav .contr
javascript - 当我使用固定位置滚动时无法使 div 跟随
我将我的页面分为左右两部分。我用 div 来制作左导航和右导航。在右侧导航中，我也有多个 div。现在，当我向下滚动页面时，只有页面的右侧部分正在滚动，而左侧导航则停留在那里。所以当我向下滚动页面时
css - 跟随 svg 运动路径时的偏移量
我刚刚开始使用 svg 和 anime.js。我正在尝试重新创建 svg motion path在文档中找到我自己的 Assets 。不过，我没有使用 div 来跟随路径，而是使用了另一条路径。我有
c - 跟随 C 中的指针
我将展示整个代码，但请注意指针上方的引号，因为我将在那里讨论我的问题。我会在引用评论中告诉你我认为那里发生了什么。代码编译并运行，我只需要帮助理解部分代码。 #include #include i
html - 滚动时如何使 div 跟随？
我在左侧有一个 div，其中包括营业时间和天气。我希望该 div 根据用户的滚动方式向下和向上滚动。所以它会跟随页面上下移动。我将如何尝试呢？这是我的网站judystropicalgarden.com
c++ - 跟随 2d 播放器 openGL
所以我遇到了这个小问题，我的相机错误地固定在播放器上。左上角的蓝色 Sprite 是玩家，但它应该位于屏幕中央。关于这个问题的所有其他线程都使用固定渲染管道，而我使用基于 VBO 的线程。我的矩阵

首页

博学

6Ren·AI

商城

python - Scrapy 立即跟随 302 重定向