gpt4 book ai didi

java - 哪种 Java API 数据结构适合 HTML 树?

转载 作者:行者123 更新时间:2023-12-01 09:51:22 25 4
gpt4 key购买 nike

为了好玩,我正在编写一个基本的解析器,用于在 HTML 文档中查找数据。我想找到代表解析文件分支的最佳结构。“最佳结构”的标准是这样的:我想轻松搜索标签的相对位置并访问其内容,例如“正文中第三个 h3 标签之后的第二个图像标签中的图像”或“正文中的标题标签”标题”。

我希望在第一级标签中搜索我要查找的标签,然后移至与该标签关联的分支。这就是这个问题正在寻找的结构,但如果有更好的方法来查找 HTML 文档中的相对位置,请解释一下。

这就是问题所在。更一般地说,通过 API 可以使用哪些类型的 Java 结构来表示树数据结构?

最佳答案

不要重新发明轮子,只需使用像 Jsoup 这样的 HTML 解析器即可,您将能够通过 CSS 选择器 使用方法 Element#select(cssQuery) 获取标签。 .

Document doc = Jsoup.parse(file, encoding);
Elements elements = doc.select(cssQuery);

关于java - 哪种 Java API 数据结构适合 HTML 树?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37577354/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com