gpt4 book ai didi

java - 如何在 Java 中解码 XHTML 和/或 HTML5 实体?

转载 作者:行者123 更新时间:2023-12-04 11:58:19 24 4
gpt4 key购买 nike

我有一些包含 的字符串XHTML 角色实体:

"They're quite varied"
"Sometimes the string ∈ XML standard, sometimes ∈ HTML4 standard"
"Therefore -> I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."

有没有简单的方法来解码实体? (我正在使用 Java)

我目前正在使用 StringEscapeUtils.unescapeHtml4(myString.replace("&apos;", "\'"))作为临时黑客。遗憾的是, org.apache.commons.lang3.StringEscapeUtilsunescapeHtml4unescapeXML ,但没有 unescapeXhtml .

编辑:我确实想处理无效的 XML,例如我想要“&&xyzzy;”解码为“&&xyzzy;”

编辑:我认为 HTML5 具有与 XHTML 几乎相同的字符实体,所以我认为 HTML 5 解码器也可以。

最佳答案

这可能不直接相关,但您可能希望采用 JSoup它处理类似的事情,尽管是从更高的层次。包括网页清洁程序。

关于java - 如何在 Java 中解码 XHTML 和/或 HTML5 实体?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21883496/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com