gpt4 book ai didi

java - 如何防止 javax.xml.transform.Transformer 转换/解析 HTML 编码的字符

转载 作者:行者123 更新时间:2023-11-29 08:06:57 24 4
gpt4 key购买 nike

我正在使用 javax.xml.transform.Transformer 获取 HTML 内容并解析为 XML 文档(我正在使用 Crouton/TagSoup 组合来执行此操作)。不过,我认为这不是太重要,因为这是我的问题:

我正在转储 Transformer.transform() 过程的输出,并在输出中看到,© 之类的内容正在转换为它们的实际符号,在本例中为版权符号。

最终,此内容将重新保存为 HTML 文件,但不是让 © 出现在文件中,而是放置这个特殊字符,给定 HTML 标准,它不应该被使用。

有没有办法让转换器忽略已经编码的 HTML 字符,使其不被转换成它们的实际符号?

最佳答案

您可以尝试以下操作:调用 transformer.setOutputProperty(OutputKeys.ENCODING, "ASCII")。这样,所有非ASCII字符都必须使用字符实体。

关于java - 如何防止 javax.xml.transform.Transformer 转换/解析 HTML 编码的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10522456/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com