gpt4 book ai didi

java - 在纯 Java 中检索呈现的 HTML DOM

转载 作者:搜寻专家 更新时间:2023-11-01 00:52:19 25 4
gpt4 key购买 nike

我知道这里已经有一些类似的问题。但我不想用 Java 构建浏览器,我只想查看完全生成(或“呈现”)的源代码。就像我在浏览器中查看生成的 DOM 一样。有人知道一个工具吗?

我看过CobraHtmlUnit ,但他们似乎无法正确呈现更复杂的网站。特别是如果有 AJAX 调用在加载后向站点添加内容。我真的需要一个与浏览器功能相同但没有实际显示的工具。最后我必须远程控制浏览器吗?

有人有这方面的经验吗?

可以找到一个非常相似但没有任何令人满意的答案的问题here .

最佳答案

我不相信存在在页面加载后抓取异步调用的库。

我的建议是:

  1. 使用 Cobra 或类似库获取页面的 HTML。
  2. 解析 AJAX 请求的源代码。 (例如,ajax 调用将有一个 URL 参数和一个可用于请求的“数据”JSON 字符串)
  3. 对于每个 AJAX 调用,对您捕获的 URL 参数发出另一个请求。
  4. 将每次 AJAX 调用的结果附加到原始页面的 HTML 源代码中。

这不是一个完美的解决方案,在需要用户触发事件的场景中它不会帮助您。此外,您用于捕获 AJAX 事件 URL 的代码将根据网站用于进行异步调用的 javascript 库而有所不同。

希望对您有所帮助。

关于java - 在纯 Java 中检索呈现的 HTML DOM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9082757/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com