java - 如何使用jsoup解析xhtml而不改变Html或解析Html实体-6ren

java - 如何使用jsoup解析xhtml而不改变Html或解析Html实体

转载作者：行者123 更新时间：2023-11-30 07:11:32

25

4

我正在使用 jsoup 解析器来操作 xhtml 文件。我的文件包含以下标签作为 I/P

<param name="video_title" value="&lt;p&gt;Renewable Energy&lt;/p&gt;" />

我使用对象 html 将此标记传递给 jsoup 解析器，如下所示

org.jsoup.nodes.Document blogContentDocument = Jsoup.parse(html, "", Parser.xmlParser());
org.jsoup.select.Elements all_elements = blogContentDocument.select("*");

返回 all_elements 后我的 o/p 会像

<param name="video_title" value="<p>Renewable Energy</p>" />

预期输出:

<param name="video_title" value="&lt;p&gt;Renewable Energy&lt;/p&gt;" />

任何人都可以建议我如何防止 jsoup 解析器更改 html 编码。

最佳答案

根据 jsoup 版本，这将起作用:

Document document = ...;
document.outputSettings().charset(Charset.forName("ASCII")); //$NON-NLS-1$
System.out.println(document.body().html());

解决方案可能是将 Jsoup 版本降级到 1.8.x 以下。转义行为从 1.7.x 更改为 1.8.x。

这里是一个例子:

1.7.3 <a href="#" title="Test<br>Test">Test<br />Test</a>
1.8.1 <a href="#" title="Test<br>Test">Test<br>Test</a>

此处有关于此主题的更多信息:
jsoup: differnt result after updating from 1.7.3 to 1.8.1, how to avoid this?

另一个解决方案可能是 apache commons StringEscapeUtils 。
逃离value解析并将转义值放回元素属性后。

org.jsoup.select.Elements all_elements = blogContentDocument.select("*");
for (Element element : all_elements) {
    String escaped = StringEscapeUtils.escapeHtml(element.attr("value"));
    element.attr("value", escaped);
    System.out.println(element);
}

// check if the content is changed in the document
System.out.println(blogContentDocument.html());

关于java - 如何使用jsoup解析xhtml而不改变Html或解析Html实体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39166282/

25

4

0

文章推荐： java - 在应用程序执行期间显示 JVM 的 ThreadStackSize

文章推荐： java - 将 Selenium 与 HP ALM 集成

文章推荐： javascript - 如何在javascript中将对象转换为字符串？

文章推荐： java - 泛型实现理解？

xhtml - XHTML 的制表符实体？
有谁知道 xhtml 中选项卡的字符实体是什么？ (嗯，如果有的话)... 最佳答案 (X)HTML 对制表符没有特殊支持:它们只是另一个空白字符，无论您是否对它们进行转义。关于xhtml - XH
xhtml - XHTML 中的自定义属性是否正常
我了解根据 HTML 规范，向元素添加自定义属性是无效的。这对 XHTML 也无效吗？我认为 XHTML 是 XML 家族的一部分，因此是可扩展的。作为可扩展性，使用自定义属性不是可以吗？戴夫最
xhtml - XHTML 中的空白处理
有没有关于如何正确处理 XHTML (1.0 Transitional) 中的空格的信息？似乎 XHTML 不使用标准的 XML 空白处理。编辑:梅比我对我到底在寻找什么有点不准确。我对元素如何呈现
xhtml - 浏览器将如何区分 XHTML 1.0 和 XHTML 5？
据我了解，XHTML (1.0, 1.1) 和 XHTML 5 都不需要 DTD。如果这是真的，浏览器将如何区分两者？我只能假设当浏览器供应商支持 (X)HTML 5 时，所有 XHTML 都将按照
java - JSF/XHTML - 一个包含相同 xhtml 页面两次的 xhtml 页面
我得到了一个带有 session 范围 bean 的 xhtml 页面。现在我想在另一个 html 页面中两次使用此页面，一次在屏幕左侧，一次在屏幕右侧。如果我包含它，它指的是同一个 bean，我怎样
xhtml - XHTML 1.0 Transitional vs XHTML 1.0严格？
就SEO而言，从客户端角度来看，我应该使用XHTML 1.0 Transitional还是XHTML 1.0 Strict？为什么有些人仍然使用Transitional？如果我们使用“严格过渡”，
xhtml - 在 XHTML 中标记推荐书的最佳方法是什么？
我以前只用 p和 span元素...但我一直在插入使用正确的元素，这是我之前没有真正考虑过关于推荐的事情。这是我想到的... I love your products! Jim Testimo
xhtml - 符合 XHTML 的意义何在？
所有现代浏览器都理解 HTML，所以除了在键盘最右侧编写更多字符之外，兼容 XHTML 的意义何在。最佳答案没有一点我能想到的。 W3C 已经取消了 XHTML 2.0，尽管应该有一个 XHTML
xhtml - 如何将网站图标添加到 xhtml 文档
我制作了一个 Windows 图标 (*.ico) 并将其命名为 favicon，它是 16 x 16 和 16 种颜色...我已将其包含在链接标签中但是加载不正确 how do I add a f
xhtml - Scala xhtml 属性因问号而中断
我有一个问题: 在 Lift 网络框架 (Scala) 版本中。我得到: Message: java.util.NoSuchElementException scala.RandomAccessS
xhtml - 社交分享按钮使 XHTML 无效
我已经编写了有效的 XHTML 1.0 Transitional 代码。我想添加社交分享按钮(twitter、facebook 和 google+)，但所有这些按钮都使我的代码无效。有什么解决办法吗？
xhtml - 如何在 XHTML 中标记科学名称？
我想知道在 XHTML 中标记科学名称的最佳方法。 This answer说我应该使用元素，我不太赞成，当然，除非它是正确的元素。我可以使用，但鉴于 HTML 的第一个用途是标记科学文档，我想
xhtml - HTML5 & XHTML 角色属性问题
角色属性是否有定义的值，如果有，您能说出它们是什么吗？或者我可以为角色属性创建自己的值吗？它们区分大小写吗？它们必须是字母吗？可以有数字吗？或者您可以同时拥有定义的值和用户创建的值。最佳答案快
xhtml - XHTML 和 DHTML 之间有什么区别？
分别阅读两者，看起来都一样，html+xml+javascript。那和有什么区别？有没有？最佳答案 XHTML是 w3c标准，一种也严格符合 XML 的 HTML 形式。 DHTML是一个很大程
xhtml - XHTML 的 XSL 转换中的命名空间问题
在使用 XSL 将 XHTML 转换为 XHTML 时，我遇到了 namespace 问题。考虑作为示例输入: Test Remove this 然后
xhtml - 使用 Text.XHtml 嵌套
我有以下代码使用 Text.XHtml.Strict 库在 Haskell 中生成一个包含一系列带有 id 和类的 div 的空白 html 页面: module Main where import
xhtml - IE 的 XHTML 兼容性
我对 IE 的 XHTML 兼容性进行了激烈的辩论。唯一的问题是，我不确定这家伙是不是在挑衅。从本质上讲，他声称 IE 完全不兼容 XHTML，并且无论使用何种浏览器，具有定义的 XHTML 文档类
xhtml - google plus 不显示来自 xhtml 文档的元信息片段
我已经为此奋斗了一段时间，但我什至无法弄清楚为什么它不起作用。以这个简单的 XHTML 测试源为例: foobar
xhtml - 为什么我的文档没有验证为 XHTML 1.1 STRICT？
虽然不推荐使用 target="_blank"，但为什么 W3C 验证器没有给出关于此的错误？您可以在 validator 中粘贴并检查此代码: Untitled Document Li
xhtml - XHTML anchor 链接，带有背景图片，无文字
是否有可能使 anchor 链接内部没有具有背景图像和固定尺寸的文本，并且仍然适合SEO？ CSS示例: a{display:block;width:50px;height:20px;backgrou

首页

博学

6Ren·AI

商城

java - 如何使用jsoup解析xhtml而不改变Html或解析Html实体