gpt4 book ai didi

c# - 通过流式传输 json 的某些部分来解析巨大的 OData JSON 以避免 LOH

转载 作者:行者123 更新时间:2023-11-30 15:51:48 25 4
gpt4 key购买 nike

我有一个 OData 响应作为 JSON (只有几 MB) 并且要求流式传输“JSON 的某些部分”,甚至不将它们加载到内存中。

例如:当我读取以下 JSON 中的属性“value[0].Body.Content”时(将以 MB 为单位),我想流式传输此值部分而不将其反序列化为字符串类型的对象。所以基本上将值部分读入固定大小的字节数组并将该字节数组写入目标流(重复该步骤直到数据处理完成)。

JSON:

{
"@odata.context": "https://localhost:5555/api/v2.0/$metadata#Me/Messages",
"value": [
{
"@odata.id": "https://localhost:5555/api/v2.0/",
"@odata.etag": "W/\"Something\"",
"Id": "vccvJHDSFds43hwy98fh",
"CreatedDateTime": "2018-12-01T01:47:53Z",
"LastModifiedDateTime": "2018-12-01T01:47:53Z",
"ChangeKey": "SDgf43tsdf",
"WebLink": "https://localhost:5555/?ItemID=dfsgsdfg9876ijhrf",
"Body": {
"ContentType": "HTML",
"Content": "<html>\r\n<body>Huge Data Here\r\n</body>\r\n</html>\r\n"
},
"ToRecipients": [{
"EmailAddress": {
"Name": "ME",
"Address": "me@me.com"
}
}
],
"CcRecipients": [],
"BccRecipients": [],
"ReplyTo": [],
"Flag": {
"FlagStatus": "NotFlagged"
}
}
],
"@odata.nextLink": "http://localhost:5555/rest/jersey/sleep?%24filter=LastDeliveredDateTime+ge+2018-12-01+and+LastDeliveredDateTime+lt+2018-12-02&%24top=50&%24skip=50"
}

尝试过的方法:
1. 牛顿软件

我最初尝试使用 Newtonsoft 流式处理,但它 internally converts the data into string and loads into memory . (这会导致 LOH 激增,并且在压缩发生之前内存不会被释放 - 我们的工作进程有内存限制,无法将其保留在内存中)

**code:**

using (var jsonTextReader = new JsonTextReader(sr))
{
var pool = new CustomArrayPool();
// Checking if pooling will help with memory
jsonTextReader.ArrayPool = pool;

while (jsonTextReader.Read())
{
if (jsonTextReader.TokenType == JsonToken.PropertyName
&& ((string)jsonTextReader.Value).Equals("value"))
{
jsonTextReader.Read();

if (jsonTextReader.TokenType == JsonToken.StartArray)
{
while (jsonTextReader.Read())
{
if (jsonTextReader.TokenType == JsonToken.StartObject)
{
var Current = JToken.Load(jsonTextReader);
// By Now, the LOH Shoots up.
// Avoid below code of converting this JToken back to byte array.
destinationStream.write(Encoding.ASCII.GetBytes(Current.ToString()));
}
else if (jsonTextReader.TokenType == JsonToken.EndArray)
{
break;
}
}
}
}

if (jsonTextReader.TokenType == JsonToken.StartObject)
{
var Current = JToken.Load(jsonTextReader);
// Do some processing with Current
destinationStream.write(Encoding.ASCII.GetBytes(Current.ToString()));
}
}
}
  1. OData.Net:

    我在想这是否可以使用 OData.Net 库来实现 looks like it supports streaming of string fields .但没能走得太远,因为我最终为数据创建了一个模型,这意味着该值将被转换为 MB 的一个字符串对象。

    代码

    ODataMessageReaderSettings settings = new ODataMessageReaderSettings();
    IODataResponseMessage responseMessage = new InMemoryMessage { Stream = stream };
    responseMessage.SetHeader("Content-Type", "application/json;odata.metadata=minimal;");
    // ODataMessageReader reader = new ODataMessageReader((IODataResponseMessage)message, settings, GetEdmModel());
    ODataMessageReader reader = new ODataMessageReader(responseMessage, settings, new EdmModel());
    var oDataResourceReader = reader.CreateODataResourceReader();
    var property = reader.ReadProperty();


知道如何使用 OData.Net/Newtonsoft 和某些字段的流值来部分解析此 JSON 吗?
唯一的方法是手动解析流吗?

最佳答案

如果您要将 JSON 的一部分从一个流复制到另一个流,您可以使用 JsonWriter.WriteToken(JsonReader) 更有效地完成此操作从而避免中间 Current = JToken.Load(jsonTextReader)Encoding.ASCII.GetBytes(Current.ToString()) 表示及其相关的内存开销:

using (var textWriter = new StreamWriter(destinationStream, new UTF8Encoding(false, true), 1024, true))
using (var jsonWriter = new JsonTextWriter(textWriter) { Formatting = Formatting.Indented, CloseOutput = false })
{
// Use Formatting.Indented or Formatting.None as required.
jsonWriter.WriteToken(jsonTextReader);
}

但是,Json.NET 的 JsonTextReader无法以与 XmlReader.ReadValueChunk() 相同的方式读取“ block ”中的单个字符串值.它总是会完全具体化每个原子字符串值。如果您的字符串值太大以至于它们在大型对象堆上,即使使用 JsonWriter.WriteToken() 也不会阻止这些字符串被完全加载到内存中。

作为替代方案,您可以考虑由 JsonReaderWriterFactory 返回的读者和作者.这些读者和作者被 DataContractJsonSerializer 使用并即时将 JSON 转换为 XML readwritten .由于这些读取器和写入器的基类是 XmlReaderXmlWriter,因此它们确实支持以 block 的形式读取和写入字符串值。适本地使用它们将避免在大对象堆中分配字符串。

为此,首先定义以下扩展方法,将选定的 JSON 值子集从输入流复制到输出流,由要流式传输的数据的路径指定:

public static class JsonExtensions
{
public static void StreamNested(Stream from, Stream to, string [] path)
{
var reversed = path.Reverse().ToArray();

using (var xr = JsonReaderWriterFactory.CreateJsonReader(from, XmlDictionaryReaderQuotas.Max))
{
foreach (var subReader in xr.ReadSubtrees(s => s.Select(n => n.LocalName).SequenceEqual(reversed)))
{
using (var xw = JsonReaderWriterFactory.CreateJsonWriter(to, Encoding.UTF8, false))
{
subReader.MoveToContent();

xw.WriteStartElement("root");
xw.WriteAttributes(subReader, true);

subReader.Read();

while (!subReader.EOF)
{
if (subReader.NodeType == XmlNodeType.Element && subReader.Depth == 1)
xw.WriteNode(subReader, true);
else
subReader.Read();
}

xw.WriteEndElement();
}
}
}
}
}

public static class XmlReaderExtensions
{
public static IEnumerable<XmlReader> ReadSubtrees(this XmlReader xmlReader, Predicate<Stack<XName>> filter)
{
Stack<XName> names = new Stack<XName>();

while (xmlReader.Read())
{
if (xmlReader.NodeType == XmlNodeType.Element)
{
names.Push(XName.Get(xmlReader.LocalName, xmlReader.NamespaceURI));
if (filter(names))
{
using (var subReader = xmlReader.ReadSubtree())
{
yield return subReader;
}
}
}

if ((xmlReader.NodeType == XmlNodeType.Element && xmlReader.IsEmptyElement)
|| xmlReader.NodeType == XmlNodeType.EndElement)
{
names.Pop();
}
}
}
}

现在,StreamNested()string [] path 参数不是任何类型的小路。相反,它是一个路径,对应于您要选择的 JSON 所对应的 XML 元素的层次结构,JsonReaderWriterFactory.CreateJsonReader() 返回的 XmlReader 翻译。 . 用于此翻译的映射又由 Microsoft 在 Mapping Between JSON and XML 中记录。 。要仅选择和流式传输那些匹配 value[*] 的 JSON 值,所需的 XML 路径是 //root/value/item。因此,您可以通过执行以下操作来选择和流式传输所需的嵌套对象:

JsonExtensions.StreamNested(inputStream, destinationStream, new[] { "root", "value", "item" });

注意事项:

  • Mapping Between JSON and XML 有点复杂。使用以下扩展方法将一些示例 JSON 加载到 XDocument 中通常更容易:

    static XDocument ParseJsonAsXDocument(string json)
    {
    using (var xr = JsonReaderWriterFactory.CreateJsonReader(new MemoryStream(Encoding.UTF8.GetBytes(json)), Encoding.UTF8, XmlDictionaryReaderQuotas.Max, null))
    {
    return XDocument.Load(xr);
    }
    }

    然后通过观察确定正确的 XML 路径。

  • 有关相关问题,请参阅 JObject.SelectToken Equivalent in .NET

关于c# - 通过流式传输 json 的某些部分来解析巨大的 OData JSON 以避免 LOH,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56038495/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com