gpt4 book ai didi

java - 当一个巨大的 XML 文档格式不正确时该怎么办(Java)

转载 作者:行者123 更新时间:2023-11-29 05:33:50 25 4
gpt4 key购买 nike

我正在使用 Java SAX 解析器来解析从第三方来源发送的大约 3 GB 的 XML 数据。由于 XML 文档格式不正确,我收到一个错误:不允许匹配“[xX][mM][lL]”的处理指令目标。

据我了解,这通常是由于某个角色位于不应该出现的位置。

主要问题:无法手动编辑这些文件,因为它们非常大。

我想知道是否有针对无法手动打开和编辑(由于它们的大尺寸)的非常大的文件的解决方法,以及是否有一种方法可以对其进行编码以便删除任何有问题的字符自动。

最佳答案

我认为最可能的解释是该文件包含多个 XML 文档的串联,或者可能是一个嵌入式 XML 文档:无论哪种方式,XML 声明都不在文件的开头。

现在很大程度上取决于您与不良数据供应商的关系。如果他们向您发送有故障的设备或有问题的软件,您可能会提示并要求他们进行修复。但如果你与第三方没有服务关系,你要么更换供应商,要么就输入有问题的情况尽力而为,即自己修复故障。通常,除非您知道要查找的错误类型,否则您无法修复有错误的 XML,并且很难确定文件是否很大(或者故障是否非常罕见)。

数据不是 XML,所以不要尝试使用 XML 工具来处理它。使用 sed 或 awk 等文本处理工具。第一步是在文件中搜索 <?xml 的出现看看是否给出了任何提示。

关于java - 当一个巨大的 XML 文档格式不正确时该怎么办(Java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20181088/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com