gpt4 book ai didi

java - 使用 Jsoup 1.11 解析 XHTML

转载 作者:太空宇宙 更新时间:2023-11-04 10:20:57 27 4
gpt4 key购买 nike

我正在尝试使用 Jsoup 解析 XHTML 文件,并删除一些标签上的结束斜杠。即:

<link rel="stylesheet" type="text/css" href="/css/assessment.css" />

变成了

<link rel="stylesheet" type="text/css" href="/css/assessment.css">

我在这里尝试了一些其他答案:

Jsoup: How to convert a String containing HTML to a XHTML document? https://github.com/jhy/jsoup/issues/511 jsoup: differnt result after updating from 1.7.3 to 1.8.1, how to avoid this?

我最近的尝试是:

    File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
Document doc = Jsoup.parse(input, "UTF-8", "");
doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
doc.outputSettings().charset("UTF-8")

我还尝试更改文档类型:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

但问题仍然存在。如何在不去掉尾部斜杠的情况下解析 HTML?

最佳答案

这有效:

    File input = new File("src\\main\\resources\\templates\\assessmenttemplate.html");
Document doc = Jsoup.parse(input, "UTF-8", "");
doc.outputSettings().syntax(Document.OutputSettings.Syntax.xml);
doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
doc.outputSettings().charset("UTF-8");

关于java - 使用 Jsoup 1.11 解析 XHTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51182458/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com