gpt4 book ai didi

javascript - 抓取 chrome 扩展 ID 的爬虫

转载 作者:行者123 更新时间:2023-11-30 18:28:30 30 4
gpt4 key购买 nike

我如何为 Google chrome 扩展网站编写爬虫程序? https://chrome.google.com/webstore/category/extensions

我正在对 Chrome 扩展进行一些安全研究。每个类别大约有 100 个扩展,我现在遇到的问题是编写一个爬虫来至少获取 UID。该网站似乎是由 javascript 更新的。如果我要获取 html,我将一无所获,因为该网站似乎会在稍后阶段加载页面的其余部分。换句话说,我需要的核心内容(即具有所有扩展元素的 DOM)似乎在我使用 python 获取 HTML 后加载。有什么想法吗?

最佳答案

是的,该网页不包含数据 - 它是单独下载的。使用像这样的 URL:

https://chrome.google.com/webstore/ajax/item?pv=1389738107&count=100&category=app/7-productivity

请注意,这必须是一个 POST 请求(没有任何 POST 数据),出于安全原因,其他请求将被拒绝。您必须删除文件开头的 ")]}'" 和其他各个位置的 "[]\n" - 然后您应该获得正确的 JSON通过 json.loads 解析。数据结构化程度不高,但应该足以抓取。

请注意,pv 参数看起来可能很快就会改变(这个 Unix 时间对应四天前的日期),您可以使用 Chrome 的 Developer Tools 的 Network 选项卡查看当前的请求参数. category 参数是类别的标识符 - 它是 Web Store 链接中 https://chrome.google.com/webstore/category/ 之后的 URL 部分。

关于javascript - 抓取 chrome 扩展 ID 的爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10255328/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com