gpt4 book ai didi

java - 如何从网站 url 获取干净的 xml 表示

转载 作者:行者123 更新时间:2023-12-01 14:41:09 25 4
gpt4 key购买 nike

我正在尝试获得网站网址的清晰表示,所以我可以将“html”放入

org.w3c.dom.Document

能够使用xpath等进行进一步处理。

当我尝试将 html 放入文档中时,我得到的是:

org.xml.sax.SAXParseException:Elementtyp“link”muss mit dem entsprechenden Endtag“”bedet werden

这意味着该“链接”必须关闭,但本网站的情况并非如此。

那么,这可能是正确的方法吗?我应该“修复”文档并替换错误吗?

我尝试了 net.sourceforge.htmlcleaner 但它没有弄清楚,如何“修复”错误。

有什么帮助吗?

问候,霍尔格

最佳答案

你可以看看Neko:http://nekohtml.sourceforge.net/

对我来说效果非常好

关于java - 如何从网站 url 获取干净的 xml 表示,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15944834/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com