gpt4 book ai didi

从 HTML 页面中提取文本 block 的 Java 库

转载 作者:行者123 更新时间:2023-11-28 05:05:18 25 4
gpt4 key购买 nike

我想从 HTML 页面中提取文本 block ,我正在使用 boilerpipe 来执行此操作。它适用于页面中的一个文本,但某些页面(如博客)在页面中有多个文本。

我想提取所有文本,但将每个文本识别为单独的文本,而不仅仅是一个。

有一些库可以做到这一点吗?

编辑:我正在使用 Jsoup 来解析 HTML,但我不想解析,而是像样板管道那样在页面中进行信息提取。我想测试其他类似的工具。

最佳答案

JSoup是用于此类任务的非常广泛使用的解析器。请检查。

关于从 HTML 页面中提取文本 block 的 Java 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8941518/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com