gpt4 book ai didi

python - urllib2 不检索带有哈希的 url

转载 作者:行者123 更新时间:2023-11-28 21:26:57 24 4
gpt4 key购买 nike

我试图从网页中获取一些数据,但我发现了一个问题。每当我想转到下一页(即第 2 页)以继续检索其中的数据时,我总是从第 1 页接收数据。显然,尝试切换到下一页时出了点问题。

问题是,我没有遇到这样的 url 问题:

'http://www.webpage.com/index.php?page=' + str(pageno)

我可以开始一个 while 语句,然后通过向“pageno”加 1 来跳转到第 2 页

当我尝试打开具有这种格式的 url 时,我的问题出现了:

'http://www.webpage.com/search/?show_all=1#sort_order=ASC&page=' + str(pageno)

作为

urllib2.urlopen('http://www.webpage.com/search/?show_all=1#sort_order=ASC&page=4').read()

将从http://www.webpage.com/search/?show_all=1中检索源代码

据我所知,没有其他方法可以在不使用哈希的情况下检索其他页面。

我想这只是 urllib2 忽略了散列,因为它通常用于指定浏览器的起点。

最佳答案

井号 (#) 符号后的 url 片段用于客户端处理,实际上并不发送到网络服务器。我的猜测是页面上有一些 javascript 使用 AJAX 从服务器请求正确的数据,您需要弄清楚用于该目的的 URL。

如果您使用 chrome,您可以查看开发人员工具的“网络”选项卡,并查看在您单击链接转到浏览器中的第二页时请求的 URL。

关于python - urllib2 不检索带有哈希的 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11968922/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com