gpt4 book ai didi

javascript - 如何将网站数据抓取到 Excel 工作表中?

转载 作者:行者123 更新时间:2023-11-30 15:06:29 24 4
gpt4 key购买 nike

我是一名新手程序员,试图编制一份包含所有 inc5000 公司及其行业、位置、收入和 CEO 的 Excel 列表。有什么方法可以让我自动执行此操作,这样我就不必手动输入全部 5000 了吗?

一些问题:

-inc5000 列表在一个页面上只显示 50 家公司,滚动到下一页不会更改 URL。我尝试将 URL 转换为 HTML,但没有任何元数据实际显示在 HTML 代码中(我使用了 https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g )。

-我需要的所有信息都在这个滚动页面 (https://www.inc.com/profile/loot-crate) 上,但是随着您向下浏览页面,每家公司的 URL 都会发生变化。有什么办法可以在不手动更改 5000 个 URL 的情况下从该站点获取数据?

我真的是编程新手,对 HTML/JavaScript/Web 设计几乎一无所知——我只懂基本的 Java。我真的很感激任何帮助或潜在的解决方案。

最佳答案

简单的方法:

转到页面,按 F12,转到调试工具的“网络”选项卡,选择 XHR(以仅过滤数据调用),然后滚动到页面底部。该页面对每个公司进行查询,您可以在调试工具中访问该查询。

一旦您拥有所有页面,您可以突出显示左侧文件名列表中的所有行,单击鼠标右键,然后将其保存到 .har 文件中。

从那里开始,只需编写一个脚本来提取 json 即可。

enter image description here

关于javascript - 如何将网站数据抓取到 Excel 工作表中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45684030/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com