gpt4 book ai didi

java - 用 Java 解析 HTML 中的单词和标签

转载 作者:行者123 更新时间:2023-12-01 15:33:10 26 4
gpt4 key购买 nike

我需要从 html 文件中提取所有标签和单词(按时间顺序)。这是文件的示例: 一二三我想要的输出是一个数组或列表,如下所示:{"", "一", "二", "三", ""}我知道有 jTidy 或 Apache Tina 等工具,但这些工具仅用于从文档中提取文本(或仅标签)。我该怎么办?

最佳答案

为此使用 JSoup 库。它使 Java 中的 HTML 解析变得异常简单。

关于java - 用 Java 解析 HTML 中的单词和标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9315484/

26 4 0