gpt4 book ai didi

java - 在 Java 中去除无效的 XML 字符

转载 作者:IT老高 更新时间:2023-10-28 21:15:08 26 4
gpt4 key购买 nike

我有一个 XML 文件,它是数据库的输出。我正在使用 Java SAX 解析器来解析 XML 并以不同的格式输出它。 XML 包含一些无效字符,解析器抛出错误,例如“无效的 Unicode 字符 (0x5)”

除了逐行预处理文件并替换它们之外,有没有一种去除所有这些字符的好方法?到目前为止,我遇到了 3 个不同的无效字符(0x5、0x6 和 0x7)。这是一个约 4gb 的数据库转储,我们将对其进行多次处理,因此每次我们获得新的转储以在其上运行预处理器时都必须额外等待 30 分钟,这将是一件痛苦的事情,这不是我第一次遇到这个问题。

最佳答案

我使用了 Xalan org.apache.xml.utils.XMLChar 类:

public static String stripInvalidXmlCharacters(String input) {
StringBuilder sb = new StringBuilder();
for (int i = 0; i < input.length(); i++) {
char c = input.charAt(i);
if (XMLChar.isValid(c)) {
sb.append(c);
}
}

return sb.toString();
}

关于java - 在 Java 中去除无效的 XML 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/93655/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com