gpt4 book ai didi

python - scrapy无法抓取页面中的所有链接

转载 作者:太空宇宙 更新时间:2023-11-03 16:57:21 24 4
gpt4 key购买 nike

我正在尝试scrapy抓取ajax网站http://play.google.com/store/apps/category/GAME/collection/topselling_new_free

我想获取指向每个游戏的所有链接。

我检查页面的元素。它看起来像这样: how the page looks like 所以我想提取具有模式/store/apps/details?id=

的所有链接

但是当我在 shell 中运行命令时,它没有返回任何内容: shell command

我也尝试过//a/@href。也没成功,但不知道出了什么问题......

  • 现在我可以抓取前 120 个链接,并按照有人告诉我的那样修改了 starturl 并添加了“formdata”,但此后就没有更多链接了。

有人可以帮我解决这个问题吗?

最佳答案

它实际上是一个填充该页面上数据的ajax-post-request。在 scrapy shell 中,你不会得到这个,而不是检查元素检查 network 选项卡,你会发现请求。

https://play.google.com/store/apps/category/GAME/collection/top sell_new_free?authuser=0 网址发出发布请求formdata={'start':'0','num':'60','numChildren':'0','ipf':'1','xhr':'1'}

每次请求时从 60 开始递增,以获得分页结果。

关于python - scrapy无法抓取页面中的所有链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35304470/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com