gpt4 book ai didi

java - 使用 SAX 解析器解析 html

转载 作者:太空狗 更新时间:2023-10-29 14:54:15 25 4
gpt4 key购买 nike

我正在尝试使用 SAX 解析器解析普通的 html 文件。

SAXBuilder builder2 = new SAXBuilder();
try {
Document sdoc = (Document)builder2.build(readFile);
NodeList nl=sdoc.getElementsByTagName("body");
System.out.println("nodelist>>>>>>>>>>>"+nl.getLength());

} catch (JDOMException e1) {
e1.printStackTrace();
}

但是我遇到了异常

Open quote is expected for attribute "{1}" associated with an  element type  "class".

谁能告诉我为什么会出现此异常,html 文档格式正确,并且所有打开和关闭标签都正确。

提前致谢。

最佳答案

正如 flash 所说,您需要一个 HTML 解析器,而不是 XML 解析器。 HTML 不是 XML。

我用过的好的解析器是 NekoTagSoup . Neko 是一个很好的全能解析器; TagSoup 的具体目标是能够解析任何内容,无论格式多么错误。

关于java - 使用 SAX 解析器解析 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7817495/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com