gpt4 book ai didi

java - 使用 Java 提取 HTML 标签

转载 作者:可可西里 更新时间:2023-11-01 14:57:50 24 4
gpt4 key购买 nike

我想从网页的源代码中提取可用的各种 HTML 标记,Java 中是否有任何方法可以做到这一点,或者 HTML 解析器是否支持这一点?

我想把所有的 HTML 标签分开。

最佳答案

Java 带有一个 XML 解析器,其方法与 JavaScript 中的 DOM 类似:

DocumentBuilder builder = DocumentBuilderFactory.newDocumentBuilder();
Document doc = builder.parse(html);
doc.getElementById("someId");
doc.getElementsByTagName("div");
doc.getChildNodes();

文档生成器可以接受许多不同的输入(输入流、原始 html 字符串等)。

http://download.oracle.com/javase/1.5.0/docs/api/org/w3c/dom/Document.html

如果您需要更多,cyber neko 解析器也不错。

关于java - 使用 Java 提取 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5375028/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com