gpt4 book ai didi

C#如何解析非标准的xml

转载 作者:行者123 更新时间:2023-11-30 19:27:47 25 4
gpt4 key购买 nike

我有很多长文档需要解析。文档格式类似于 XML 但实际上不是 xml。

这是一个例子:

<DOC>
<TEXT>it's the content P&G</TEXT>
</DOC>
<DOC>
<TEXT>it's antoher</TEXT>
</DOC>

请注意,有多个根标签 - <DOC> ,以及实体 &应该是 &amp;在 xml 中。

因此,上述文件不是标准的xml。

我可以使用 XmlDocument 吗?解析文件,还是应该编写自己的解析器?

最佳答案

您所说的有些不正确 - 这是“非标准 XML”。该文档不是 XML。期间。

不能使用XmlDocument 或任何其他 XML 解析器将其作为完整文档进行解析。

在尝试使用 XML 解析器解析它之前,您需要确保拥有有效的 XML。

所以 - 在这种情况下,要么将文档扭曲到根元素中,要么将其分解为多个文档。无论哪种情况,您都需要确保特殊字符的编码正确(引号、& 符号等...)。

answer by oakio 通过将文档视为 XML 片段来让您分道扬镳,但这仍然无助于处理无效内容,例如未转义的 & 符号。

关于C#如何解析非标准的xml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17742760/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com