python - 为 asp doPostBack() 函数生成正确的 scrapy 隐藏输入表单值-6ren

python - 为 asp doPostBack() 函数生成正确的 scrapy 隐藏输入表单值

转载作者：太空宇宙更新时间：2023-11-04 02:33:22

25

4

tldr; 我试图覆盖服务器所需的隐藏字段以返回一个新的地理缓存页面失败(__EVENTTARGET 属性)，因此服务器返回一个空页面.

Ps:我的原始帖子因投票放弃而关闭，所以我在对第一篇帖子进行大量编辑后重新发布。

我尝试使用 Scrapy 1.5.0 抓取一些包含著名地理藏宝网站缓存的网页。

因为如果你想运行这个code，你需要一个帐户，我在网站上创建了一个新的临时免费帐户来进行一些测试:dumbuser 密码为 stackoverflow

A) 流程的实际工作部分:

首先，我通过登录页面(需要搜索页面)进入网站:https://www.geocaching.com/account/login
成功登录后，我在某些地理位置(例如法国，上诺曼底)搜索项目(geocaches)。

这第一次搜索没有问题，我很容易解析第一个 geocaches。

B) 过程中的问题部分:请求下一页

当我尝试模拟点击转到地理藏宝的下一页时。例如转到第 1 页到第 2 页。

网站使用ASP with synchronised state between client and server ，因此我们需要先转到 page1，然后是 page2，然后是 page3，然后在抓取期间以此类推，以维护服务器在每个 FORM 查询之间生成的 __VIEWSTATE 变量(隐藏输入)。

每个数字的链接(见图片)调用一个带有 javascript 函数的链接 javascript:__doPostBack(...)，在提交整个表单之前将内容注入(inject)到已经存在的隐藏字段中。

正如您在 __doPostBack 函数中所见:

<script type="text/javascript">
//<![CDATA[
var theForm = document.forms['aspnetForm'];
if (!theForm) {
    theForm = document.aspnetForm;
}
function __doPostBack(eventTarget, eventArgument) {
    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }
}
//]]>
</script>

例子:因此，当您单击第 2 页链接时，javascript 运行是 javascript:__doPostBack('ctl00$ContentBody$pgrTop$lbGoToPage_2','')。表单与

一起提交

__EVENTTARGET = ctl00$ContentBody$pgrTop$lbGoToPage_2
__EVENTARGUMENT = ''

C) 首先尝试模仿这种行为:

为了废弃许多页面(这里限制为五个第一页)我在这里尝试 yield 五个 formRequest.from_response 查询，它只是手动覆盖这个 __EVENTTARGET __EVENTARGUMENT 属性:

def parse_pages(self,response):

    self.parse_cachesList(response)

    ## EXTRACT NUMBER OF PAGES
    links = response.xpath('//td[@class="PageBuilderWidget"]/span/b[3]')
    print(links.extract_first())

    ## Try to extract page 1 to 5 for exemple
    for page in range(1,5):
        yield scrapy.FormRequest.from_response(
            response,
            formxpath="//form[@id='aspnetForm']",
            formdata=
{'__EVENTTARGET':'ctl00$ContentBody$pgrTop$lbGoToPage_'+str(page),
'__EVENTARGUMENT': '',
                      '__LASTFOCUS': ''},
            dont_click=True,
            callback=self.parse_cachesList,
            dont_filter=True
        )

D) 后果:

服务器返回的页面是空的，所以我的策略有问题。

当我查看表单发布后服务器返回的生成的 html 代码时，__EVENTTARGET 永远不会被 scrapy 覆盖:

<input id="__EVENTTARGET" name="__EVENTTARGET" type="hidden" value=""/>
<input id="__EVENTARGUMENT" name="__EVENTARGUMENT" type="hidden" value=""/>

E) 问题:

你能帮我理解为什么 scrapy 不替换/覆盖这里的 __EVENTTARGET 值吗？我模拟点击关注每个新页面的用户的策略中的问题在哪里？

完整代码可在此处下载:code

更新 1:

使用 fiddler，我终于发现问题与输入有关:ctl00$ContentBody$chkAll=Check All 此输入由 scrapy.FormRequest.from_response 方法自动复制。如果我从 POST 请求中删除此属性，它就可以工作。那么，我怎样才能删除这个字段，我尝试清空没有结果:

result = scrapy.FormRequest.from_response(
            response,
            formname="aspnetForm",
            formxpath="//form[@id='aspnetForm']",
            formdata={'ctl00$ContentBody$chkAll':'',
                      '__EVENTTARGET':'ctl00$ContentBody$pgrTop$lbGoToPage_2',},
            dont_click=True,
            callback=self.parse_cachesList,
            dont_filter=True,
            meta={'proxy': 'http://localhost:8888'}
            )

最佳答案

已解决 使用大量耐心，fiddler调试 POST 查询并将其重新发送到服务器的工具!

就像update 1在我原来的问题中说的那样，问题来自表单中的输入ctl00$ContentBody$chkAll。

从 FormRequest 发送的 POST 表单中删除输入的方法很简单，我在 commit here 中找到了它.在 formdata 字典中将该属性设置为 None。

    result = scrapy.FormRequest.from_response(
        response,
        formname="aspnetForm",
        formxpath="//form[@id='aspnetForm']",
        formdata={'ctl00$ContentBody$chkAll':None,
        '__EVENTTARGET':'ctl00$ContentBody$pgrTop$lbGoToPage_2',},
        dont_click=True,
        callback=self.parse_cachesList,
        dont_filter=True
        )

关于python - 为 asp doPostBack() 函数生成正确的 scrapy 隐藏输入表单值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48544207/

25

4

0

文章推荐： css - 动画时边界半径消失

文章推荐： html - 保持Divs在同一高度

文章推荐： python - PySpark - 将单个整数列表与列表列进行比较

asp.net - ASP.Net MVC 与经典 ASP 有何不同(不是 ASP.Net——原始 ASP)
我试图对 ASP.Net MVC 有一个高层次的理解，我开始意识到它看起来很像原始的 ASP 脚本。过去，我们将“模型”/业务逻辑代码组织到 VBScript 类或 VB COM 组件中。当然，现在
asp.net - ASP Repeater 前面的项目总数 asp
我已经搜索了一段时间，但似乎找不到答案。我想在我的旋转木马中显示一个计数器，左边是当前项目(工作)，左边是项目总数。我的代码:
asp.net - ASP/ASP.NET 短标记的名称
. 最佳答案 Scott Gu 称这些为代码块。这就是我的看法。 http://weblogs.asp.net/scottgu/archive/2010/04/06/new-lt-gt-syntax
asp.net - 我可以将 asp.net 4.0 与经典 asp 结合使用，还是可以将经典 asp 转换为 asp.net？
我有一个使用 Visual Studio 2010/.net 4/VB 制作的网站。我真的很喜欢我发现的 FAQ 系统的布局，因为它很简单，但它是经典的 asp。所以，显然，我不能包括我的母版页布局
asp.net - 为什么 ASP.NET ViewState 保留为 asp :dropdownlist but not an asp:table?
好吧，对于你们许多人来说，这个问题可能有一个非常明显的答案，但它让我难住了。我有一个 asp.net Web 表单，上面有两个控件(嗯，不止这两个，但我们将重点关注这些) - 第一个是 asp:dr
asp.net - asp :UpdatePanel with an ASP. NET 复选框触发器
当我将 ASP.NET 复选框控件设置为 asp.net 更新面板的异步回发触发器时，EventName 属性是什么？最佳答案我相信它是 CheckedChanged。关于asp.net - a
asp.net - 结合经典的 asp 和 asp.net
我有一个用经典 asp 编写的(巨大的)网站。现在我必须切换到 vb.net (razor)。有没有办法将这两个结合起来直到切换完成？有没有办法让应用程序与经典的 asp 和 vb.net 一起工作
asp.net - ASP.NET 页面中的各种 asp 控件
I am creating a products page, where the user selects an option in a radiobuttonlist for example, an
asp.net - 哪个性能最好 : Classic ASP, ASP.NET WebForms 或 ASP.NET MVC？
我最近将一个经典的 ASP 应用程序转换为 ASP.NET 3.5，但我觉得我的经典 ASP 版本要快一些(我不知道可能买家会后悔)。所以你们能帮我解决这个问题吗，让我知道哪个更快，asp、asp.
asp.net - 我无法准确理解 ASP 是什么以及如何上传 ASP 网站
从本周开始，我被要求开始学习如何使用 ASP 开发网站。我通过 XNA 对 C# 有一定的经验，所以这部分对我来说并不是什么麻烦。我一直在关注Music Store Tutorial这需要我设置一个
asp.net - 新项目如何从 ASP.Net 转向经典 ASP
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
asp.net - 如何将页面从 ASP.NET 发布到经典 ASP
我想将一些表单变量发布到经典 ASP 页面中。我不想改变经典的 ASP 页面，因为需要完成大量的工作，以及消耗它们的页面数量。经典的 ASP 页面需要将表单变量 Username 和 Userpas
asp.net - 有什么好的引用资料或工具可用于将 ASP 转换为 ASP.NET？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
asp.net - ASP.NET/ASP.NET MVC中类似SSI的功能
在某种程度上，这可能是一个异端问题。我们有一个大型站点，其中许多页面仍在ASP中。通常，并没有真正动态的，而是包括(通过SSI或Server.Execute)定期重新生成的HTML块。看起来好像是一个
asp.net - asp 和 asp.net 之间的区别
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
asp.net - ASP --> ASP.Net : Refactoring steps
我有一个遗留的 ASP 应用程序——在不久的某个时候——需要迁移到 ASP.Net 2.0(以与也在 2.0 中的其他应用程序兼容)。对于这类事情是否有最佳实践，即作为第一步将当前 html、vbs
asp.net - 将经典 ASP 和 ASP.NET Web 窗体转换为 ASP.NET MVC
我目前在一家公司工作，该公司使用 ASP.NET Webforms 和旧 ASP 页面的组合进行 Web 开发。这对于他们当前的项目来说效果很好，但我想说服/建议他们切换到 ASP.NET MVC，因
asp.net - 将表单从 asp 发布到 asp.Net
我有一个经典的 asp 应用程序。我想将该页面的竞赛表格发布到 Asp.Net 表格。原因是我想在进入数据库之前使用我在 Asp.Net 页面中内置的大量逻辑进行验证，而我对 asp 不太了解。更不用
asp.net - ASP.NET 移动 View 是否仅适用于 ASP.NET MVC？或者它们也可以在普通的 ASP.NET 中使用？
我知道在 ASP.NET MVC 中，您可以拥有移动 View 并执行类似 Index.mobile.cshtml 的操作。和 _Layout.mobile.cshtml并且服务器知道将这些 View
asp.net - 从 C# ASP.Net 调用经典 ASP
我需要从一些服务器端 c#.net 代码中调用经典 asp 页面上的 VBscript 函数 - 有谁知道一种干净的方法来做到这一点？在 .net 中重写函数不是一种选择。我会再解释一下这个问题..

首页

博学

6Ren·AI

商城

python - 为 asp doPostBack() 函数生成正确的 scrapy 隐藏输入表单值