gpt4 book ai didi

parsing - F# ref-mutable vars 与对象字段

转载 作者:行者123 更新时间:2023-12-01 09:09:24 24 4
gpt4 key购买 nike

我正在用 F# 编写一个解析器,它需要尽可能快(我希望在不到一分钟的时间内解析一个 100 MB 的文件)。像往常一样,它使用可变变量来存储下一个可用字符和下一个可用标记(即,词法分析器和解析器都正确使用一个预测单元)。

我当前的部分实现对这些使用局部变量。由于闭包变量不能是可变的(有人知道原因吗?)我将它们声明为 ref:

let rec read file includepath =
let c = ref ' '
let k = ref NONE
let sb = new StringBuilder()
use stream = File.OpenText file

let readc() =
c := stream.Read() |> char
// etc

我认为这有一些开销(我知道不多,但我在这里尝试最大速度),而且有点不雅。最明显的替代方法是创建一个解析器类对象并将可变变量作为其中的字段。有谁知道哪个可能更快?是否有任何共识被认为是更好/更惯用的风格?我还缺少其他选择吗?

最佳答案

您提到局部可变值不能被闭包捕获,因此您需要使用 ref 代替。原因是闭包中捕获的可变值需要在堆上分配(因为闭包是在堆上分配的)。

F# 强制您显式编写此代码(使用 ref)。在 C# 中,您可以“捕获可变变量”,但编译器会在后台将其转换为堆分配对象中的字段,因此无论如何它都会在堆上。

总结就是:如果要使用闭包,需要在堆上分配可变变量。

现在,关于您的代码 - 您的实现使用 ref,它为您正在使用的每个可变变量创建一个小对象。另一种方法是创建具有多个可变字段的单个对象。使用记录,您可以编写:

type ReadClosure = {
mutable c : char
mutable k : SomeType } // whatever type you use here

let rec read file includepath =
let state = { c = ' '; k = NONE }
// ...
let readc() =
state.c <- stream.Read() |> char
// etc...

这可能会更高效一些,因为您分配的是单个对象而不是几个对象,但我预计差异不会很明显。

您的代码还有一件令人困惑的事情 - stream 值将在函数 read 返回后被释放,因此调用 stream.Read 可能无效(如果您在 read 完成后调用 readc)。

let rec read file includepath =    
let c = ref ' '
use stream = File.OpenText file
let readc() =
c := stream.Read() |> char
readc

let f = read a1 a2
f() // This would fail!

我不太确定您实际上是如何使用 readc 的,但这可能是一个需要考虑的问题。此外,如果您仅将其声明为辅助闭包,您可能会在不使用闭包的情况下重写代码(或使用尾递归显式编写代码,将其转换为带有可变变量的命令式循环)以避免任何分配。

关于parsing - F# ref-mutable vars 与对象字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2942616/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com