gpt4 book ai didi

java - 使用内联 CSS 提取 HTML 文章文本

转载 作者:太空宇宙 更新时间:2023-11-04 08:12:25 28 4
gpt4 key购买 nike

我想从抓取的 html 网页中提取文本。我正在使用优秀的开源Boilerpipe图书馆就是为了做到这一点。然而,使用 Boilerpipe 我只能得到原始文本。除了原始文本之外,我还需要捕获具有原始源格式信息以及内联所有 css 样式信息的文本。

有没有办法用 Boilerpipe 或任何其他 java 库(最好是开源的)来做到这一点?

最佳答案

我首先要说的是,我从未使用过 Boilerpipe……甚至直到现在才听说过它。

但是查看网站和 javadocs,我想说您不能使用它来提取带有样式的文本。基本的概念问题是如何表示样式。例如,BoilerpipeExtractor接口(interface)有 4 个 getText 方法,每个方法都以字符串形式返回提取的文本。您如何在字符串中表示样式?您必须嵌入某种标记,但是......

  • 什么样的标记,以及
  • 您如何将此与接口(interface)的描述相协调,接口(interface)的描述表明方法返回“文本”...而不是“带有标记的文本”。

所以,我的评估是使用 Boilerpipe 来提取带有样式的文本是完全行不通的。因此,请选择您已经确定的其他替代方案。

关于java - 使用内联 CSS 提取 HTML 文章文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10966017/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com