gpt4 book ai didi

java - 下载由 JavaScript 更改的网页的 HTML

转载 作者:搜寻专家 更新时间:2023-11-01 03:37:56 25 4
gpt4 key购买 nike

我正在编写的程序是用 Java 编写的。

我正在编写一个小程序,它将下载网页的 html 并保存它们。它适用于不使用 JavaScript 的基本页面。但是如果我想在脚本更新后如何下载页面呢?我正在处理的页面实际上是由 Ajax 更新的,这可能更难一步。

我知道这可能是一个涉及设置某种 JavaScript 运行时环境的难题。我为任何难度级别的解决方案做好了准备,我只是不知道如何处理它或从哪里开始。

最佳答案

仅靠 Java 无法做到这一点。由于您要下载的页面是使用 javascript 呈现的,因此您必须能够执行 javascript 才能获得整个呈现的页面。

由于这种情况,您需要使用 headless 浏览器,这是一种可以访问网页但不能在 GUI 中显示输出的 Web 浏览器,旨在提供完全呈现的网页内容以供使用到程序或脚本。

您可以从最著名的开始,即 Selenium , HtmlUnitPhantomJS

关于java - 下载由 JavaScript 更改的网页的 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24622625/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com