gpt4 book ai didi

php - 抓取 Javascript 生成的网站

转载 作者:行者123 更新时间:2023-11-28 10:59:54 24 4
gpt4 key购买 nike

我认为这是一个真正具有挑战性的任务!

我为本地的足球联赛 www.rdyfl.co.uk 编写了一个网站,其中包括来自 F.A 全职系统的 javascript 代码片段,我们可以在其中生成赛程表、链接最近的赛程表结果等。

对于我想添加到网站的另一项功能,我需要为每个年龄段和部门抓取“即将推出的赛程”,但当我检查源时,我遇到了两个问题。

  1. 灯具内容是由 javascript 生成的,因此我需要查看生成的源而不仅仅是源。

  2. 当我使用 Firefox 查看生成的源代码时,团队名称实际上是进一步的 javascript 链接,而不是名称本身。

我基本上想以某种方式定期下载装置,然后写入 mysql 数据库?

我已经询问了 F.A.,他们没有更多选项可以访问数据吗?

以前从未编写过抓取代码,有人可以给我指出一个简单的解决方案吗?或者有人喜欢这个挑战吗?

最佳答案

这个问题很久以前就被问到了,但我注意到它今天很活跃🤷。

您应该能够使用 headless 浏览器抓取网站,例如 Puppeteer 。使用 Puppeteer,您可以访问 URL 并执行 JavaScript 或与网站交互,就像使用普通浏览器一样。解析输出 DOM 并存储它应该相对简单。

有很多articles使用 Puppeteer 来讨论这个主题。

关于php - 抓取 Javascript 生成的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5206888/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com