gpt4 book ai didi

xml - 这是此 xml 文件中的有效 UTF8 字符吗?

转载 作者:数据小太阳 更新时间:2023-10-29 03:00:24 24 4
gpt4 key购买 nike

我从上游数据源收到了一些 XML。

enter image description here

我不确定这些奇怪的字符是否是有效的 UTF8 - 或者 - 上游源代码搞砸了。即错误数据输入 => 错误数据输出。

我猜下面是传递下来的内容:

Value in XML file  | Unicode Value | UTF-8 Value  | English Description
-------------------------------------------------------------------------------------------
’ | U+2019 | \xe2\x80\x99 | RIGHT SINGLE QUOTATION MARK
• | U+2022 | \xe2\x80\xa3 | BULLET
& | -not unicode- | -- | Ampsersand, HTML Encoded.

我觉得 UFT-8 值开头的 \ 有点……编码但是……做错了吗?

谁能解释一下我在看什么,这样我就知道如何正确解码它了。同样令人沮丧的是,我觉得这可能是编码的混合,这会使事情变得糟糕:(

引用:http://utf8-chartable.de/unicode-utf8-table.pl?start=8192&number=128&utf8=string-literal

最佳答案

这与您收到的 XML 中的 UTF-8 无关,因为 &#xXX; 的字符转义对 字符 进行编码,因此不存在编码问题是。 [实际上,可能是这样,因为可能是生成 XML 的任何东西都是由不了解 XML 转义是如何工作的人编写的。毕竟,一旦出现问题,就没有必要假设它做任何事情都是正确的,除非得到其他证明。]

看起来确实有些东西一直在处理一些非常好的 UTF-8,就好像它是一种不同的编码,然后决定转义结果。您由此获得的某些字符(“U+0080”和“U+0099”)是 XML 中允许但强烈反对的字符。一些('â' 和 '¢')是完全明智的字符(尽管以非明智的方式产生)使得逃避它的决定几乎与导致他们在那里的任何错误一样奇怪。

无论 mojibake 的来源是什么,您都会得到 mojibake,因此如果您可以向上游投诉或报告错误,请这样做并在源头修复它,而不是试图修复损坏的东西。

否则你将不得不尝试取消转义字符,将它们编码为他们认为的任何格式(我猜是 ISO Latin 1,但还有其他可能性),然后将它们解码为他们是UTF-8。不过,无法保证这不会对文档的正确位造成的损害与对错误位的撤消一样大。

关于xml - 这是此 xml 文件中的有效 UTF8 字符吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46048351/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com