gpt4 book ai didi

java - 使用 java html 解析器提取文本

转载 作者:行者123 更新时间:2023-12-02 00:52:00 24 4
gpt4 key购买 nike

我想使用一个 html 解析器,以一种漂亮、优雅的方式执行以下操作

  1. 提取文本(这是最重要的)
  2. 提取链接、元关键字
  3. 重建原始文档(可选但很好的功能)

根据我迄今为止的调查jericho似乎很合适。你们还推荐其他开源库吗?

最佳答案

我最近尝试了 HtmlCleaner 和 Cyber​​NekoHtml。 Cyber​​NekoHtml 是一个 DOM/SAX 解析器,可以生成可预测的结果。 HtmlCleaner 速度稍快一些,但常常无法产生准确的结果。

我会推荐 Cyber​​NekoHtml。 Cyber​​NekoHtml 可以完成您提到的所有操作。例如,提取所有元素及其属性的列表非常容易。如果您想重建页面,可以遍历 DOM 树,将每个元素构建回 HTML。

这里有一个开源 java html 解析器的列表: http://java-source.net/open-source/html-parsers

关于java - 使用 java html 解析器提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2609948/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com