gpt4 book ai didi

java - Html 2 文本 - 删除 "hidden"文本

转载 作者:太空宇宙 更新时间:2023-11-04 15:39:19 26 4
gpt4 key购买 nike

我目前正在寻找使用 Java 读取网站可见文本并将其存储为纯文本字符串的方法。

换句话说,我想转换成这样:

Hello <span style="display: none">stupid</span> World进入“ Hello World ”

或者类似的东西

<span>Un</span>friendly进入“不友好”(而不是“不友好”之类的东西)

Hello

World

进入“Hello World”(因为新行在 HTML 中被忽略)

您知道任何能够协助完成这项任务的库吗?

干杯,

马蒂亚斯

最佳答案

Boilerpipe是一个用 Java 编写的 HTML 清理库。

关于java - Html 2 文本 - 删除 "hidden"文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5246415/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com