gpt4 book ai didi

java - 帮助 Java Swing HTML 解析

转载 作者:太空宇宙 更新时间:2023-11-04 08:52:50 24 4
gpt4 key购买 nike

我正在使用 Java Swing HTML 解析库解析 HTML 文档集合,并尝试隔离 <title> 之间的文本。标签,以便我可以使用它们来识别文档,但自从handleStartTag以来我很难做到这一点方法无法访问标签内的文本

最佳答案

您可以使用 XPath 从 HTML 中提取数据:

String html = //...

//read the HTML into a DOM
StreamSource source = new StreamSource(new StringReader(html));
DOMResult result = new DOMResult();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.transform(source, result);
Node root = result.getNode();

//use XPath to get the title
XPath xpath = XPathFactory.newInstance().newXPath();
String title = xpath.evaluate("/html/title", root);

但是,HTML 必须是格式良好的 XHTML 才能正常工作。例如,“
”标记在 HTML 中有效,但在 XHTML 中无效,因为它未闭合。它必须是“
”才能在 XHTML 中有效。

关于java - 帮助 Java Swing HTML 解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2969108/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com