- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我序列化了一个非常大的 List<string>
使用此代码:
public static string SerializeObjectToXML<T>(T item)
{
XmlSerializer xs = new XmlSerializer(typeof(T));
using (StringWriter writer = new StringWriter())
{
xs.Serialize(writer, item);
return writer.ToString();
}
}
并使用这段代码反序列化它:
public static T DeserializeXMLToObject<T>(string xmlText)
{
if (string.IsNullOrEmpty(xmlText)) return default(T);
XmlSerializer xs = new XmlSerializer(typeof(T));
using (MemoryStream memoryStream = new MemoryStream(new UnicodeEncoding().GetBytes(xmlText.Replace((char)0x1A, ' '))))
using (XmlTextReader xsText = new XmlTextReader(memoryStream))
{
xsText.Normalization = true;
return (T)xs.Deserialize(xsText);
}
}
但是当我反序列化它时我得到了这个异常:
XMLException: There is an error in XML document (217388, 15). '[]', hexadecimal value 0x1A, is an invalid character. Line 217388, position 15.
at System.Xml.Serialization.XmlSerializer.Deserialize(XmlReader xmlReader, String encodingStyle, XmlDeserializationEvents events)
at System.Xml.Serialization.XmlSerializer.Deserialize(XmlReader xmlReader)
为什么是 xmlText.Replace((char)0x1A, ' ')
线路不工作,这是什么魔法?
List<string>
太大了,监 window 口只显示 Unable to evaluate the expression. Not enough storage is available to complete this operation.
错误信息。最佳答案
我想我已经找到了问题所在。默认情况下,XmlSerializer
将允许您生成无效的 XML。
给定代码:
var input = "\u001a";
var writer = new StringWriter();
var serializer = new XmlSerializer(typeof(string));
serializer.Serialize(writer, input);
Console.WriteLine(writer.ToString());
输出是:
<?xml version="1.0" encoding="utf-16"?>
<string></string>
这是无效的 XML。根据 XML 规范,所有字符引用都必须指向有效的字符。有效字符是:
#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
如您所见,U+001A(以及所有其他 C0/C1 控制字符)不允许作为引用,因为它们不是有效字符。
解码器给出的错误信息有点误导,如果它说存在无效的字符引用会更清楚。
您可以执行多种操作。
您可以使用 XmlWriter
,默认情况下不允许使用无效字符:
var input = "\u001a";
var writer = new StringWriter();
var serializer = new XmlSerializer(typeof(string));
// added following line:
var xmlWriter = XmlWriter.Create(writer);
// then, write via the xmlWriter rather than writer:
serializer.Serialize(xmlWriter, input);
Console.WriteLine(writer.ToString());
这将在序列化发生时抛出异常。必须对此进行处理并显示适当的错误。
这可能对您没有用,因为您的数据已经存储了这些无效字符。
也就是说,不是 .Replace((char)0x1a, ' ')
,它目前实际上并没有替换文档中的任何内容,而是使用 .Replace("& #x1A;", "")
。 (这不是不区分大小写的,但它是 .NET 生成的内容。更可靠的解决方案是使用不区分大小写的正则表达式。)
顺便说一句,XML 1.1 实际上允许引用控制字符,只要它们是引用而不是文档中的普通字符。除了 .NET XmlSerializer 不支持版本 1.1 之外,这将解决您的问题。
关于c# - 无懈可击的 XMLException,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9798033/
我是一名优秀的程序员,十分优秀!