gpt4 book ai didi

java - 用于清理 html 和转义格式错误的片段的理想 Java 库

转载 作者:可可西里 更新时间:2023-11-01 14:58:37 25 4
gpt4 key购买 nike

我有一些需要解析和清理的 HTML 文件,它们偶尔会包含未正确转义的特殊字符,如 <、>、"等内容。

我已经尝试通过 jTidy 运行这些文件,但我能做的最好的就是忽略它认为是格式错误的 html 的内容。是否有一个不同的库只会转义格式错误的片段而不是忽略它们?如果没有,关于哪个库最容易修改有什么建议吗?

澄清:

示例输入:

blah blah blah

期望的输出:

blah blah <M+1>废话

最佳答案

你也可以试试TagSoup . TagSoup 发出常规的旧 SAX事件,因此最终您会得到一个格式良好的 XML 文档。

我在使用 TagSoup 时非常幸运,我总是惊讶于它能如此出色地处理构造不佳的 HTML 文件。

关于java - 用于清理 html 和转义格式错误的片段的理想 Java 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2358366/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com