gpt4 book ai didi

ruby - 解析 100mb JSON 负载的有效方法

转载 作者:数据小太阳 更新时间:2023-10-29 06:54:19 26 4
gpt4 key购买 nike

我每 12 小时在我的亚马逊 EC2 微型实例上运行一次 cron 作业。它下载 118MB 的文件并使用 json 库解析它。这当然会使实例内存不足。我的实例有 416MB 的可用内存,但随后我运行脚本,它下降到 6MB,然后被操作系统杀死。

我想知道我在这里有什么选择?是否可以通过 Ruby 有效地解析它,或者我是否必须下降到像 C 这样的低级东西?我可以获得一个功能更强大的亚马逊实例,但我真的很想知道是否可以通过 Ruby 做到这一点。

更新:我看过yajl。它可以在解析时为您提供 json 对象,但问题是,如果您的 JSON 文件仅包含 1 个根对象,那么它将被迫解析所有文件。我的 JSON 看起来像这样:

--Root
-Obj 1
-Obj 2
-Obj 3

如果我这样做:

parser.parse(file) do |hash|
#do something here
end

因为我只有 1 个根对象,所以它将解析整个 JSON。如果 Obj 1/2/3 是 root,那么它会工作,因为它会一个一个地给我它们,但我的 JSON 不是那样的,它会解析并占用 500mb 的内存...

更新 # 2:这是 118mb 大文件 (7mb) 的缩小版:

消失

它是可解析的,我不只是从文件中取出一些字节,只是为了让您看到它的整体。我要找的数组是这个

events = json['resultsPage']['results']['event']

谢谢

最佳答案

YAJL实现流式解析器。您可以使用它来即时读取您的 JSON,这样您就可以在内容传入时对其进行操作,然后在完成处理后丢弃它们(以及从中生成的数据结构)。如果您对此很聪明,这将使您保持在内存限制之内。

编辑:对于您的数据,您真正感兴趣的是一次提取 JSON 对象的一部分,而不是解析整个对象。这非常棘手,并且确实需要您实现自己的解析器。它的具体细节是您想要:

  1. 进入事件数组
  2. 对数组中的每个事件,解析事件
  3. 将解析后的事件传递给某个回调函数
  4. 丢弃已解析的事件和源输入,为下一个事件释放内存。

这不适用于 yajl,因为您在这里处理的是一个对象,而不是多个对象。要使其与 yajl 一起使用,您将需要手动解析 JSON 以发现事件对象边界,然后将每个事件对象 block 传递给 JSON 解析器以进行反序列化。像 Ragel 这样的东西可以为你简化这个过程。

当然,只升级您的 AWS 实例会更容易。

关于ruby - 解析 100mb JSON 负载的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13993862/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com