gpt4 book ai didi

Java DOM 转换和解析具有无效 XML 字符的任意字符串?

转载 作者:行者123 更新时间:2023-12-02 09:14:49 25 4
gpt4 key购买 nike

首先我想提一下,这不是 How to parse invalid (bad / not well-formed) XML? 的重复项。因为我没有给定的无效(或格式不正确)XML 文件,而是给定的任意 Java String其中可能包含也可能不包含无效的 XML 字符。我想创建一个 DOM Document包含Text具有给定 String 的节点,然后将其转换为文件。当文件被解析为 DOM Document我想要一个String等于初始给定的 String 。我创建 Text节点 org.w3c.dom.Document#createTextNode(String data)我得到了字符串 org.w3c.dom.Node#getTextContent() .

正如您在 https://stackoverflow.com/a/28152666/3882565 中看到的那样Text 有一些无效字符XML 文件中的节点。实际上 Text 有两种不同类型的“无效”字符。节点。有预定义的实体,例如 " , & , ' , <> DOM API 使用 &quot; 自动转义它们, &amp; , &apos; , &lt;&gt;在解析文件时,DOM API 会撤消生成的文件中的内容。现在的问题是,对于其他无效字符,例如'\u0000',情况并非如此。或'\uffff' 。解析文件时发生异常,因为'\u0000''\uffff'是无效字符。

可能我必须实现一种方法来转义给定 String 中的这些字符在将其提交给 DOM API 之前以一种独特的方式,并在稍后当我得到 String 时撤消该操作。回来了,对吗?有一个更好的方法吗?过去有人实现过这些或类似的方法吗?

编辑:此问题已标记为 Best way to encode text data for XML in Java? 的重复问题。我现在已阅读所有答案,但没有一个能解决我的问题。所有答案都表明:

  • 使用 XML 库,例如我已经做过的 DOM API,这些库实际上都不会替换无效字符,除了 " 之外。 , & , ' , < , >还有更多。
  • 将所有无效字符替换为 "&#number;"这会导致无效字符异常,例如 "&#0;"解析文件时。
  • 使用具有 XML 编码方法的第三方库,该方法不支持非法字符,例如 "&#0;" (它们在某些库中被跳过)。
  • 使用也不支持无效字符的 CDATA 部分。

最佳答案

一种技术是将整个字符串编码为 Base64 编码的 UTF8。

但是,如果“特殊”字符很少见,那么可读性和文件大小就会受到重大牺牲。

另一种技术是将特殊字符表示为处理指令,例如 <?U 0000?>对于代码点 0。

另一种方法是使用反斜杠转义,例如\u0000 表示代码点 0,当然\表示反斜杠本身。这样做的优点是您可能可以找到为您执行此操作的现有库例程(例如 JSON 转换库)。我无法想象为什么你的要求说你不能使用这样的库;但如果你真的不会,那么自己编写代码并不难。

关于Java DOM 转换和解析具有无效 XML 字符的任意字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59447599/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com