gpt4 book ai didi

java - 用于 HTML 到文本转换的开源 java 库

转载 作者:IT老高 更新时间:2023-10-28 20:53:19 25 4
gpt4 key购买 nike

你能推荐一个将 HTML 转换为 plain 文本的开源 Java 库(最好是 ASL/BSD/LGPL 许可证) - 清理所有标签、转换实体(&、 等)并处理
和表格。

更多信息

我将 HTML 作为字符串,无需从网络上获取它。另外,我正在寻找这样的方法:

String convertHtmlToPlainText(String html)

最佳答案

试试 Jericho .

TextExtractor类听起来像它会做你想做的事。抱歉,由于我是新用户,无法发布第二个链接,但请向下滚动主页,然后有一个链接。

关于java - 用于 HTML 到文本转换的开源 java 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1518675/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com