gpt4 book ai didi

python - 我怎样才能刮掉这个框架?

转载 作者:行者123 更新时间:2023-11-28 20:11:59 24 4
gpt4 key购买 nike

如果您访问 this link现在,您可能会遇到 VBScript 错误。

另一方面,如果您访问 this link first然后然后上面的链接(在同一个 session 中),页面通过。

此应用程序的设置方式是,第一页用作第二(主)页中的框架。如果您稍微点击一下,就会看到它是如何工作的。

我的问题:如何使用 Python 抓取第一页?我已经尝试了我能想到的所有方法——urllib、urllib2、mechanize——但我得到的只是 500 个错误或超时。

我怀疑答案就在 mechanize 身上,但我的 mechanize-fu 还不足以破解这个问题。谁能帮忙?

最佳答案

它总是归结为请求/响应模型。您只需要设计一系列 http 请求即可获得所需的响应。在这种情况下,您还需要服务器将每个请求视为同一 session 的一部分。为此,您需要弄清楚服务器是如何跟踪 session 的。它可以是很多东西,从 cookie 到隐藏输入到表单操作、发布数据或查询字符串。如果我不得不猜测,在这种情况下我会把钱花在 cookies 上(我没有检查链接)。如果情况属实,您需要发送第一个请求,保存您返回的 cookie,然后将该 cookie 与第二个请求一起发送。

也可能是初始页面包含将您带到第二页的按钮和链接。这些链接将具有类似 <A href="http://cad.chp.ca.gov/iiqr.asp?Center=RDCC&LogNumber=0197D0820&t=Traffic%20Hazard&l=3358%20MYRTLE&b="> 的内容第一页生成了很多 gobbedlygook。

"Center=RDCC&LogNumber=0197D0820&t=Traffic%20Hazard&l=3358%20MYRTLE&b="部分对您必须从第一页获取的一些 session 信息进行编码。

当然,您甚至可能需要同时执行这两项操作。

关于python - 我怎样才能刮掉这个框架?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1314052/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com