parsing - 如何使用 FParsec 在 F# 中解析非常大的文件-6ren

parsing - 如何使用 FParsec 在 F# 中解析非常大的文件

转载作者：行者123 更新时间：2023-12-02 11:00:54

25

4

我正在尝试使用 FParsec 解析一个非常大的文件。该文件的大小为 61GB，太大而无法保存在 RAM 中，因此如果可能的话，我想生成一系列结果(即 seq<'Result>)，而不是列表。这可以用 FParsec 来完成吗？ (我想出了一个偷工减料的实现，实际上可以做到这一点，但由于 CharStream.Seek 的 O(n) 性能，它在实践中效果不佳。)

该文件是面向行的(每行一条记录)，理论上可以批量解析，例如一次解析 1000 条记录。 FParsec“Tips and tricks”部分说:

If you’re dealing with large input files or very slow parsers, it might also be worth trying to parse multiple sections within a single file in parallel. For this to be efficient there must be a fast way to find the start and end points of such sections. For example, if you are parsing a large serialized data structure, the format might allow you to easily skip over segments within the file, so that you can chop up the input into multiple independent parts that can be parsed in parallel. Another example could be a programming languages whose grammar makes it easy to skip over a complete class or function definition, e.g. by finding the closing brace or by interpreting the indentation. In this case it might be worth not to parse the definitions directly when they are encountered, but instead to skip over them, push their text content into a queue and then to process that queue in parallel.

这对我来说听起来很完美:我想将每批记录预先解析到一个队列中，然后稍后并行地完成解析它们。但是，我不知道如何使用 FParsec API 来完成此任务。如何在不耗尽所有 RAM 的情况下创建这样的队列？

FWIW，我试图解析的文件是 here如果有人想和我一起尝试一下。 :)

最佳答案

我想到的“明显”的事情是使用 File.ReadLines 之类的东西预处理文件。然后一次解析一行。

如果这不起作用(您的 PDF 看起来就像一条记录只有几行长)，那么您可以使用普通的 FileStream 读取来创建一系列记录或 1000 条记录或类似的内容。这不需要知道记录的详细信息，但如果您至少可以分隔记录，那就很方便。

无论哪种方式，您最终都会得到解析器可以读取的惰性序列。

关于parsing - 如何使用 FParsec 在 F# 中解析非常大的文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30176748/

25

4

0

文章推荐： java - spring data JPA 中 api Page 的空数据

文章推荐： android - Activity 返回图像

文章推荐： asp.net - MVC 6 @inherit RazorPage

parse-platform - Parse Image + Parse httpRequest 替换——从 Parse Cloud Code 迁移到 Parse Server on Node (Heroku/AWS/DO)
我发现在使用parse-node包时，不能再使用Parse.Cloud.httpRequest了。我也知道 Parse 的 Image 对象将不可用。到目前为止，我已经能够用原生的替换一些 Pars
parsing - 'parse' 的反义词是什么？
关闭。这个问题是opinion-based 。目前不接受答案。已关闭 9 年前。已锁定。这个问题及其答案是locked因为这个问题是题外话，但却具有历史意义。目前不接受新的答案或互动。我有一个函
parse-platform - Parse Server - 用于配置新 Parse 实例的架构 API
开源 Parse Server 是否包含用于配置新 Parse 实例的 Schema API？我试图消除手动创建应用程序的需要。这是通过 Parse.com 提供的架构 API http://blo
parse-platform - 如何从客户端正确创建 Parse.com Parse.Cloud.httpRequest？
我想从我的云代码发出一个 http 请求，该请求在我的客户端被调用。最佳答案一开始我发现这有点令人困惑，所以希望这会有所帮助。在您的云代码中main.js Parse.Cloud.define(
parsing - *** 异常 : Prelude. 读取 : no parse in Haskell - Parsing, 表达式和递归
这部分代码应该读入两个或更多数字(省略主 io 函数)，然后是一个“+”来给出总和。使用有理数是因为稍后我将进行乘法和其他此类操作。 data Expression = Number Rationa
parse-platform - Parse.Config 在 Parse Server 上不起作用？
我似乎找不到任何关于此的官方信息:Does Parse.Config work on Parse Server?它曾经在 Parse.com 上工作，但是当我尝试迁移到 Parse.Server 时，
passwords - Parse.com 在 Parse.Cloud.beforeSave(Parse.User
我正在尝试找到使用 Parse.com 添加密码要求的最佳程序。似乎最简单的方法是在保存用户数据之前使用云功能执行。我唯一的警告是，只有当密码与数据库中存储的密码不同或者用户不存在于数据库中时，我才想
android - Parse 中的初始化 (com.parse.Parse.Configuration) 无法应用于 MainActivity 错误？
我是 android 开发、应用程序开发和一般开发的初学者，我正在尝试为我的 android 应用程序设置后端数据库。我决定使用一个名为 back4app 的服务，以便获得更加用户友好的数据库体验，因
android - 编译com.parse :parsefacebookutils leads to com. parse.Parse Class not found异常
我目前正在尝试将 Facebook 登录功能添加到我的应用程序。根据Android文档，当我添加 compile 'com.parse:parsefacebookutils-v4-android:1
parsing - 如何使用 PARSE 从字符串中解析货币值
我正在尝试使用 Rebol 2/3 从字符串中解析货币值，货币值的格式为: 10,50 欧元或 10,50 欧元我在浏览了所有 PARSE 文档后想出了这段代码，我可以在 Red 中找到它，但在 R
parsing - DateTimeFormat.parse() 失败
代码: DateTimeFormat dateFormat = DateTimeFormat .getFormat("EEE MMM dd HH:mm:ss zzz y
parse-platform - Parse 上不再有导入按钮
我不再在 Parse 上看到用于导入 JSON 或 CSV 文件的导入按钮。他们是否将其移动到某个地方，或者不再可能导入这些文件类型？最佳答案官方原因是这样的: “[导入类按钮] 几天前被删除，因
parsing - JSON.parse() 是必要的吗？
我正在使用 PHP 从我的服务器检索一些数据。我想在 javascript 应用程序中使用这些数据，所以我正在做这样的事情: var polylines = ; $polylines 只是一个 PHP
parsing - BigInteger.Parse() 对十六进制数给出负数
我已经开始使用 .NET 4 System.Numerics.BigInteger Structure我遇到了一个问题。我正在尝试解析一个包含无符号(正数)的十六进制数字的字符串。我得到一个负数。
parsing - JSON.parse() 是必要的吗？
我正在使用 PHP 从我的服务器检索一些数据。我想在 javascript 应用程序中使用这些数据，所以我正在做这样的事情: var polylines = ; $polylines 只是一个 PHP
parsing - time.Parse 行为
在 Go 中，尝试将字符串转换为 time.Time 时，使用时间包的 Parse 方法不会返回预期结果。似乎问题出在时区。我想更改为 ISO 8601 结合 UTC 日期和时间。 package m
parsing - time.Parse 自定义布局
我正在尝试将此字符串模式 "4-JAN-12 9:30:14" 解析为 time.Time。尝试了 time.Parse("2-JAN-06 15:04:05", inputString) 和许多其
parse-platform - "Please refrain from creating a Parse project inside another Parse project."
从云代码和解析开始。使用this . 如何删除所有 Parse 项目以便开始创建新项目？我收到以下错误: “您想要创建一个新应用程序，还是将 Cloud Code 添加到现有应用程序中？输入“(n)e
parse-platform - parse.com cloudcode 查询，如何告诉 parse 只返回在表中找到的 PFObject 的某些列？
我在解析云代码时有这个功能: Parse.Cloud.define("testfunction", function(request, response) { var username = r
parse-platform - 一个 Parse.Object.saveAll 请求可以保存多少数据？以及一个 Parse.Object.saveAll 将使用多少请求
最近，我在 parse.com 上做了一些测试。我现在面临在后台作业中使用 Parse.Object.saveAll 的问题。从 parse.com 的文档来看，后台作业可以运行 15 分钟。我现在

首页

博学

6Ren·AI

商城

parsing - 如何使用 FParsec 在 F# 中解析非常大的文件