gpt4 book ai didi

asp.net - 使用 Python 和 urllib2 抓取 ASP.NET

转载 作者:太空宇宙 更新时间:2023-11-04 01:40:10 25 4
gpt4 key购买 nike

我一直在尝试(不成功,我可能会补充)使用 Python 和 urllib/urllib2 抓取使用 Microsoft 堆栈(ASP.NET、C#、IIS)创建的网站。我还使用 cookielib 来管理 cookie。在花了很长时间在 Chrome 中分析网站并检查标题之后,我一直无法想出一个有效的登录解决方案。目前,为了让它在最基本的层面上工作,我已经使用所有适当的表单数据(甚至 View 状态等)对编码的 URL 字符串进行硬编码。我还传递了有效的 header 。

我目前收到的回复是:

29|pageRedirect||/?aspxerrorpath=/default.aspx|

我不确定如何解释以上内容。此外,我还非常广泛地研究了用于处理登录字段的客户端代码。

运作方式如下:您输入您的用户名/密码并点击“登录”按钮。按 Enter 键也模拟此按钮按下。输入字段不在表单中。相反,在所述登录按钮上有一些 onClick 事件(其中大部分只是为了美观),但有一个问题处理验证。在将其发送到服务器端之前,它会进行一些基本检查。根据 Web 资源,它显然使用的是 .NET AJAX。

正常登录本网站时,您会以 POST 形式请求域名,其中包含您的用户名和密码等表单数据。然后,有某种 URL 重写或重定向将您带到 url.com/twitter 的内容页面。当尝试直接访问 url.com/twitter 时,它会将您重定向到主页。

我应该指出,我已决定将有问题的 URL 排除在外。我没有做任何恶意的事情,只是每隔合理的时间增量自动执行一次非常单调的检查(我熟悉富有同情心的屏幕抓取)。但是,如果域所有者不满意,将我的 StackOverflow 帐户与该帐户相关联是微不足道的。

我的问题是: 我过去曾成功登录并自动化服务,但这些都不是基于 .NET 的。有什么我应该做的不同的事情,或者我可能遗漏了什么吗?

最佳答案

对于将来可能处于类似困境的任何其他人:

我只想指出,我在 Chrome 中使用 Greasemonkey 用户脚本来完成我所有的抓取和自动化工作取得了很大的成功。我发现它比 Python + urllib2 容易得多(至少对于这种特殊情况)。用户脚本是用 100% Javascript 编写的。

关于asp.net - 使用 Python 和 urllib2 抓取 ASP.NET,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5973245/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com