json - Haskell 导管 Aeson : Parsing Large JSONs and filter matching key/values-6ren

json - Haskell 导管 Aeson : Parsing Large JSONs and filter matching key/values

转载作者：行者123 更新时间：2023-12-04 22:12:54

25

4

我用 Haskell 编写了一个应用程序，它执行以下操作:

递归列出一个目录，
解析目录列表中的 JSON 文件，
寻找匹配的键值对，并且
返回找到匹配项的文件名。

我的这个应用程序的第一个版本是我能写的最简单、天真的版本，但我注意到空间使用似乎单调增加。

因此，我切换到 conduit，现在我的主要功能如下所示:

conduitFilesFilter :: ProjectFilter -> Path Abs Dir -> IO [Path Abs File]
conduitFilesFilter projFilter dirname' = do
  (_, allFiles) <- listDirRecur dirname'
  C.runConduit $
    C.yieldMany allFiles
    .| C.filterMC (filterMatchingFile projFilter)
    .| C.sinkList

现在我的应用程序已限制内存使用，但它仍然很慢。对此，我有两个问题。

1)

我使用 stack new 生成框架来创建这个应用程序，它默认使用 ghc 选项 -threaded -rtsopts -with-rtsopts=-N。

(对我而言)令人惊讶的是，当我实际运行该应用程序时，它使用了所有可用的处理器(目标机器中大约有 40 个)。但是，我没有编写要并行运行的应用程序的任何部分(实际上我考虑过)。

什么是并行运行的？

2)

此外，大多数 JSON 文件都非常大 (10mb)，可能有 500k 需要遍历。这意味着由于所有 Aeson 解码，我的程序非常慢。我的想法是并行运行我的 filterMatchingFile 部分，但是查看 stm-conduit 库，我看不到并行运行这个中间操作的明显方法少数处理器。

任何人都可以建议一种使用 stm-conduit 或其他方式巧妙地并行化我的函数的方法吗？

编辑

我意识到我可以将我的 readFile -> decodeObject -> runFilterFunction 分解成 conduit 的单独部分，然后我可以使用 stm-conduit 有一个有界 channel 。也许我会试一试...

我使用 +RTS -s 运行我的应用程序(我将它重新配置为 -N4)，我看到以下内容:

 115,961,554,600 bytes allocated in the heap
  35,870,639,768 bytes copied during GC
      56,467,720 bytes maximum residency (681 sample(s))
       1,283,008 bytes maximum slop
             145 MB total memory in use (0 MB lost due to fragmentation)

                                     Tot time (elapsed)  Avg pause  Max pause
  Gen  0     108716 colls, 108716 par   76.915s  20.571s     0.0002s    0.0266s
  Gen  1       681 colls,   680 par    0.530s   0.147s     0.0002s    0.0009s

  Parallel GC work balance: 14.99% (serial 0%, perfect 100%)

  TASKS: 10 (1 bound, 9 peak workers (9 total), using -N4)

  SPARKS: 0 (0 converted, 0 overflowed, 0 dud, 0 GC'd, 0 fizzled)

  INIT    time    0.001s  (  0.007s elapsed)
  MUT     time   34.813s  ( 42.938s elapsed)
  GC      time   77.445s  ( 20.718s elapsed)
  EXIT    time    0.000s  (  0.010s elapsed)
  Total   time  112.260s  ( 63.672s elapsed)

  Alloc rate    3,330,960,996 bytes per MUT second

  Productivity  31.0% of total user, 67.5% of total elapsed

gc_alloc_block_sync: 188614
whitehole_spin: 0
gen[0].sync: 33
gen[1].sync: 811204

最佳答案

从您的程序描述来看，它没有理由增加内存使用量。我认为这是由于错过了惰性计算而导致的意外内存泄漏。这可以通过堆分析轻松检测到:https://downloads.haskell.org/~ghc/latest/docs/html/users_guide/profiling.html#hp2ps-rendering-heap-profiles-to-postscript .其他可能的原因是运行时不会将所有内存释放回操作系统。在达到某个阈值之前，它将保持与处理的最大文件成比例的内存。如果通过进程 RSS 大小进行跟踪，这可能看起来像是内存泄漏。

-A32m 选项增加了苗圃规模。它允许您的程序在触发垃圾收集之前分配更多内存。统计数据显示，在 GC 期间保留的内存非常少，因此这种情况发生的频率较低，程序花在实际工作上的时间更多。

关于json - Haskell 导管 Aeson : Parsing Large JSONs and filter matching key/values，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48330690/

25

4

0

文章推荐： r - 在 R 字符串中打印反斜杠

文章推荐： excel - 在 VBA Excel 中以 PDF 格式打印的可变垂直页数

json - mongoexport - JSON 查询问题(扩展 JSON - JSON 输入无效)
最近开始学习MongoDB。今天老师教了我们 mongoexport 命令。在练习时，我遇到了一个典型的问题，包括教练在内的其他同学都没有遇到过。我在我的 Windows 10 机器上使用 Mongo
json - 如何将 JSON Schema 链接到我的 JSON 以验证 JSON？
我是 JSON Schema 的新手，读过什么是 JSON Schema 等等。但我不知道如何将 JSON Schema 链接到 JSON 以针对该 JSON Schema 进行验证。谁能解释一下？
json - 仅使用 json 在另一个 json 文件中包含一个 json 文件
在 xml 中，我可以在另一个 xml 文件中包含一个文件并使用它。如果您的软件从 xml 获取配置文件但没有任何方法来分离配置，如 apache/ngnix(nginx.conf - site-av
json - 如何反序列化包含具有更多 JSON 的字符串的 JSON？
我有一个 JSON 对象，其中包含一个本身是 JSON 对象的字符串。我如何反序列化它？我希望能够做类似的事情: #[derive(Deserialize)] struct B { c: S
json - Play Json 读取嵌套泛型序列化 Json
考虑以下 JSON { "a": "{\"b\": 12, \"c\": \"test\"}" } 我想定义一个泛型读取 Reads[Outer[T]]对于这种序列化的 Json import
json - 从 JSON 模式生成示例 JSON
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 11 个月前关闭。 Improve
json - DynamoDB JSON 还是标准 JSON？
我的旧项目在 MySQL 中有 Standard JSON 格式的数据。对于我在 JS (Node.js) 和 DynamoDB 中的全新项目，关于 Standard JSON格式: 是否建议将其转
json - JSON 值是有效的 JSON 吗？
JSON 值字符串、数字、true、false、null 是否是有效的 JSON？即，是 true 一个有效的 JSON 文档？还是必须是数组/对象？一些验证器接受这个(例如 http://jso
json - 如何编码嵌入在 JSON 中的 JSON
我有一个 JSON 字符串，其中一个字段是文本字段。这个文本字段可以包含用户在 UI 中输入的文本，如果他们输入的文本是 JSON 文本，也许是为了说明一些编码，我需要对他们的文本进行编码，以便它不会
json - 使用加号序列化 JSON 会导致无效的 JSON
我正在通过 IBM MQ 调用处理数据，当由 ColdFusion 10 (10,0,11,285437) 序列化时，0 将作为 +0.0 返回，它会导致无效的 JSON并且无法反序列化。 stPol
json - 在 json 中没有嵌套数组的情况下哈希到 json
我正在从三个数组中生成一个散列，然后尝试构建一个 json。我通过 json object has array 成功了。 require 'json' A = [['A1', 'A2', 'A3'],
json - 根据 JSON 中的字段有条件地解码 JSON
我从 API 接收 JSON，响应可以是 30 种类型之一。每种类型都有一组唯一的字段，但所有响应都有一个字段 type 说明它是哪种类型。我的方法是使用serde .我为每种响应类型创建一个结构并
json - 为什么我下载的 JSON 文件不再是 JSON？
我正在下载一个 JSON 文件，我已将其检查为带有“https://jsonlint.com”的有效 JSON 到文档目录。然后我打开文件并再次检查，结果显示为无效的 JSON。这怎么可能？？？？这是
json - 尝试解析 JSON 并创建提取的 JSON
我正在尝试根据从 API 接收到的数据动态创建一个 JSON 对象。收到的示例数据:将数据解码到下面给出的 CiItems 结构中 { "class_name": "test", "
json - 从 JSON 字符串值解析 JSON
我想从字符串转换为对象。来自 {"key1": "{\n \"key2\": \"value2\",\n \"key3\": {\n \"key4\": \"value4\"\n }\n
json - 将扁平化的 json 转换为嵌套的 json
目前我正在使用以下代码将嵌套的 json 转换为扁平化的 json: import ( "fmt" "github.com/nytlabs/gojsonexplode" ) func
json - Go:用一组 json 标签解码 json，并编码为另一组不同的 json 标签
我有一个使用来自第三方 API 的数据的应用程序。我需要将 json 解码为一个结构，这需要该结构具有“传入”json 字段的 json 标签。传出的 json 字段具有不同的命名约定，因此我需要不同
json - 将 JSON 值限制为其他 JSON 对象的名称
我想使用 JSON 架构来验证某些值。我有两个对象，称它们为 trackedItems 和 trackedItemGroups。 trackedItemGroups 是组名称和 trackedItem
json - Spark JSON 将 JSON 中完整的字段读取到案例类中
考虑以下案例类模式， case class Y (a: String, b: String) case class X (dummy: String, b: Y) 字段b是可选的，我的一些数据集没有字
json - 如何从 json 对象中获取格式化的 json 字符串？
我正在存储 cat ~/path/to/file/blah | 的输出jq tojson 在一个变量中，稍后在带有 JSON 内容的 curl POST 中使用。它运作良好，但它删除了所有换行符。我知

首页

博学

6Ren·AI

商城

json - Haskell 导管 Aeson : Parsing Large JSONs and filter matching key/values