gpt4 book ai didi

javascript - 如何从动态生成的网页中检索 html

转载 作者:数据小太阳 更新时间:2023-10-29 07:51:40 24 4
gpt4 key购买 nike

2 年前,我搁置了一个可以工作的 Ruby 网络 scraper,它可以一次自动下载电视电影列表 1 周。今天又开始动手,发现Ruby既不能访问正在显示的网页的控件,也不能访问数据。

调试显示脚本现在正在生成加载后续网页的文档。此外,初始脚本在运行时会修改当前文档(删除链接)。使用任何 url 都会导致加载相同的初始网页。

我正在寻找有关如何继续访问所显示网页中的数据的建议。我对 javascript 不是很了解,但如果我有明确的计划,我会继续追求。我相信我找到了加载第二个网页的 href,但它只会再次加载初始页面,因此其他机制正在发挥作用(即脚本中提到的 cookie)。

要下载信息,至少需要 28 个网页,通常下载电影信息需要处理数百个网页。

最佳答案

正如您所发现的,您无法通过简单的 HTTP 请求抓取包含动态内容的网页。您需要模拟实际使用的网页,以便 Javascript 运行并生成您需要的内容。这tutorial可能会帮助您完成您想要完成的任务。

关于javascript - 如何从动态生成的网页中检索 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49225889/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com