gpt4 book ai didi

java - 如何使用需要正确 HTML 的库处理来自 Web 的无效 HTML 文档

转载 作者:搜寻专家 更新时间:2023-11-01 03:25:22 24 4
gpt4 key购买 nike

我在解析网站时遇到此错误。错误:“实体“ContentType”的声明必须以“>”结尾。或输入类型必须关闭

最佳答案

你有没有考虑过JTidy

JTidy is a Java port of HTML Tidy, a HTML syntax checker and pretty printer. Like its non-Java cousin, JTidy can be used as a tool for cleaning up malformed and faulty HTML. In addition, JTidy provides a DOM parser for real-world HTML.

很明显,在某些时候它会根据 HTML 的格式问题与 HTML 进行斗争,但您可能会发现这对您有用。

关于java - 如何使用需要正确 HTML 的库处理来自 Web 的无效 HTML 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15291586/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com