gpt4 book ai didi

java - 抓取基于 XML 加载 HTML 的网站数据

转载 作者:太空宇宙 更新时间:2023-11-04 11:02:35 25 4
gpt4 key购买 nike

我正在尝试使用 JAVA 中的 JSoup 库从网页中抓取数据。然而,这里的问题是我想要抓取的数据是基于 XML 加载的,所以当我尝试从 HTML 解析它时,它会显示

<div id="report-details-container"> 
<!-- Container where HTML template will be loaded based on XML -->
</div>

它只显示此评论,而不是完整的 HTML。

如何抓取该数据,因为在检查元素中我可以看到完整的 HTML。

最佳答案

How can I scrape that data because in inspect element I can see full HTML.

您无法从 HTML 中删除原始 XML。 XML 不在 HTML 中。

但是:

  • 您也许能够对原始 XML 进行逆向工程...前提是您知道从 XML 到 HTML 的转换规则(例如,您有 XSLT 文件),并且转换不会有损。

  • 如果从 XML 到 HTML 的转换是使用(例如)XSLT 的客户端执行完成的,那么您应该能够在应用转换之前捕获 XML。

  • 可能有一种方法可以让服务器发送 XML 而不是 HTML。这将取决于服务器本身。

<小时/>

但是,如果您所拥有的只是像我们向我们展示的那样的 HTML 注释,那么您首先需要对加载 XML 的过程进行逆向工程。它可能是通过一些客户端脚本完成的。

关于java - 抓取基于 XML 加载 HTML 的网站数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46741136/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com