parsing - 如何为相互递归的 ADT 编写一个解析器，而不产生递归和副作用？-6ren

parsing - 如何为相互递归的 ADT 编写一个解析器，而不产生递归和副作用？

转载作者：行者123 更新时间：2023-12-02 16:26:55

警告:即将出现又长又复杂的问题。

有些人相信total functional programming这是一个有值(value)的想法，找到实现它的技术也很有值(value)。考虑到这一点，如何为相互递归的 ADT 编写一个解析器，而不产生递归和副作用？在这里，我将任何不是 strongly normalizing 的术语定义为“递归”。。

我尝试过的:

请注意以下相互递归 ADT:

data Tree = Node Int [Tree]
tree = Node 10 [Node 20 [], Node 30 [], Node 40 []]

值tree可以序列化为:

tree_serial = [0,10,0,0,20,1,0,0,30,1,0,0,40,1,1] :: [Int]

为简单起见，使用整数，这里，0 表示 Node 或 Cons 单元格的开头(取决于解析器的状态) )，1表示Nil，其余表示数据。我们可以使用副作用轻松地为它编写一个解析器:

var string = [0,10,0,0,20,1,0,0,30,1,0,0,40,1,1];

function parse(string){
    function getInt(){
        return string.shift();
    };
    function parseTree(){
        var chr = getInt();
        if (chr === 0)
            return ["Node",getInt(),parseList()];
    };
    function parseList(){
        var chr = getInt();
        if (chr === 0)
            return ["Cons",parseTree(),parseList()];
        if (chr === 1)
            return "Nil";
    };
    return parseTree();
};

console.log(JSON.stringify(parse(string)));

这里，getInt 是有副作用的:它从字符串中获取下一个 int。我们可以使用 Parsec 或类似的方法轻松而优雅地将其转换为 Haskell - 但为了更好地理解，我跳过了这些并定义了一个精简的解析器类型:

data Parser res = GetInt (Int -> Parser res) | Return res
runParser (GetInt fn) (c:cs) = runParser (fn c) cs
runParser (Return res) c     = res

这与一元解析器类似，但更明确的是:

main = do
    let parsePair = (GetInt (\a -> (GetInt (\b -> Return (a,b)))))
    print $ runParser parsePair [1,2,3,4,5]

使用它，我们可以定义没有副作用的解析器:

data Tree = Node Int [Tree] deriving Show

parseTree = treeParser Return where
    treeParser = (\ cont -> 
        GetInt (\ _ ->  
            GetInt (\ tag -> 
                listParser (\ listParsingResult -> 
                    (cont (Node tag listParsingResult)))))) 
    listParser = (\ cont -> 
        GetInt (\ a -> 
            if a == 0 
                then treeParser (\x -> listParser (\y -> cont (x : y)))
                else cont []))

main = do
    let treeData = [0,10,0,0,20,1,0,0,30,1,0,0,40,1,1]
    print $ runParser parseTree treeData

这会按预期输出节点 10 [节点 20 []、节点 30 []、节点 40 []]。请注意，这仍然使用递归，并且我必须使用 cont 在两个递归函数之间传递控制。现在，我知道有两种摆脱递归的策略:

1. Use folds.

2. Use church numbers for bounded recursion.

在这里使用折叠显然是不可行的，因为没有可以折叠的结构(我们正在构建它!)。如果我们解析列表而不是树，那么使用教堂编号将是完美的，因为它们的工作方式与有界递归的 Y 组合器完全相同 - 并且，知道列表的长度，我们可以只编写 toChurch listLength listParser init 。然而，这种情况的问题在于，存在相互递归，并且使用哪个教堂编号并不明显。我们有许多层的列表和树，长度不可预测。事实上，如果我们使用足够大的教堂编号，它无需递归即可工作，但代价是增加工作量。这是一个实际有用的程序的最后示例之一，如果没有递归，我就无法“正确”复制。能做到吗？

为了完整起见，这里有一个 JavaScript 程序，它不使用递归而是使用虚构的教堂数字来解析该树:

function runParser(f){return function(str){
    var a = f(str[0]);
    return a(str.slice(1));
}};
function Const(a){return function(b){return a}};
function toChurch(n){return (function(f){return (function(a){ 
    for (var i=0; i<n; ++i) 
        a  =  f(a); 
    return a; 
}) }) };
function parser(get){
    return toChurch(50)(function(rec){
        return function (res){
            return get(function(a){
                return [get(function(b){
                    return toChurch(50)(function(recl){
                        return function(res){
                            return get(function(a){
                                return [
                                    rec(function(a){
                                        return recl(function(b){
                                            return res(["Cons",a,b])
                                        })
                                    }),
                                    res("Nil")][a];
                            });
                        };
                    })(0)(function(x){return res(["Node",b,x])});
                })][a];
            });
        };
    })(0)(Const);
};
var string = [0,200,0,0,300,0,0,400,1,0,0,500,1,0,0,500,1,1,0,0,600,0,0,700,1,0,0,800,1,0,0,900,1,1,1];
console.log(JSON.stringify(parser(runParser)(string)));

请注意 parser 函数内的 50 常量:它作为边界是完全任意的。我不确定对于那些“完全适合”特定可解析值的选择是否存在“正确”选择。

最佳答案

tl;dr:对您的输入列表进行 Church 编码，并使用它来驱动您的递归。

列表的正确 Church 编码需要 RankNTypes，看起来有点像这样:

{-# LANGUAGE RankNTypes #-}

data List a = List { runList :: forall r. (a -> r -> r) -> r -> r }
instance Show a => Show (List a) where
    showsPrec n (List xs) = showsPrec n (xs (:) [])

nilVal :: List a
nilVal = List $ \cons nil -> nil

consVal :: a -> List a -> List a
consVal a (List as) = List $ \cons nil -> cons a (as cons nil)

-- handy for pattern-matching
uncons :: List a -> Maybe (a, List a)
uncons (List xs) = xs cons nil where
    cons x Nothing = Just (x, nilVal)
    cons x (Just (x', xs)) = Just (x, consVal x' xs)
    nil = Nothing

现在我们只需要编写解析器即可。我对解析理论真的很糟糕，所以我把一些糟糕的东西放在一起。也许对这个领域略知一二的人可以在这里给你一些更有原则性的建议。我将解析语法:

tree -> 0 N list
list -> 0 tree list | 1

我的解析器状态将跟踪我们当前正在解析的“漏洞”。对于非终结符，我们实际上需要一堆孔。因此，端子孔具有以下形式之一:

* N list
0 * list
* tree list
*

我们将折叠最后两个。请注意，这些漏洞之前都没有有趣的信息，因此我们不需要在 THole 中存储任何内容。非终端孔具有以下形式之一:

0 N *
0 * list
0 tree *

在这种情况下，树形成规则中的空洞前面有一个我们稍后需要的数字，而列表形成规则中的第二种空洞前面有一棵我们需要保留的树，所以NTHole 将需要构造函数中的那些。因此:

data Tree = Node Int [Tree]
    deriving (Eq, Ord, Read, Show)

data THole
    = TreeT0
    | TreeT1
    | ListT
    deriving (Eq, Ord, Read, Show)

data NTHole
    = TreeNT Int
    | ListNT0
    | ListNT1 Tree
    deriving (Eq, Ord, Read, Show)

我们当前的解析器状态将是我们当前所处的终端孔，以及随着规则减少而需要填充的非终端孔堆栈。

type RawState = (THole, List NTHole)
initRawState = (TreeT0, nilVal)

...好吧，除了我们还有两个感兴趣的状态:列表完成和错误。

type State = Maybe (Either RawState Tree)
initState = Just (Left initRawState)

现在我们可以编写一个步骤函数来获取良好的状态并处理它。同样，您可能需要一个解析器生成器工具来为您创建其中一个，但这种语言足够小，我可以手动完成。

stepRaw :: Int -> RawState -> State
stepRaw 0 (TreeT0, xs) = Just (Left (TreeT1, xs))
stepRaw n (TreeT1, xs) = Just (Left (ListT , consVal (TreeNT n) xs))
stepRaw 0 (ListT , xs) = Just (Left (TreeT0, consVal ListNT0    xs))
stepRaw 1 (ListT , xs) = fst (runList xs cons nil) [] where
    cons v (f, xs) = flip (,) (consVal v xs) $ case v of
        ListNT1 t -> \acc -> f (t:acc)
        TreeNT  n -> \acc -> let t = Node n acc in case uncons xs of
            Nothing -> Just (Right t)
            Just (ListNT0, xs) -> Just (Left (ListT, consVal (ListNT1 t) xs))
            _ -> Nothing
        _ -> \acc -> Nothing
    nil = (\acc -> Nothing, nilVal)
stepRaw _ _ = Nothing

step :: Int -> State -> State
step n v = v >>= either (stepRaw n) (const Nothing)

事实证明，这个解析器实际上是向后运行的，这是不幸的，但不是一个根本的限制。对我来说，朝这个方向思考更容易。根据要求，这里没有递归。我们可以在 ghci 中的示例 List Int 上进行尝试。

*Main> let x = foldr consVal nilVal [1,1,40,0,0,1,30,0,0,1,20,0,0,10,0]
*Main> runList x step initState
Just (Right (Node 10 [Node 20 [],Node 30 [],Node 40 []]))

我使用 foldr 来构建 x，并且 foldr 是递归的，所以你可能会对此尖叫。但是我们可以轻松地定义 x 而无需 foldr；内置列表语法比长链 consVal 和 nilVal 更方便读写。

关于parsing - 如何为相互递归的 ADT 编写一个解析器，而不产生递归和副作用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31256085/

文章推荐： firefox - 移动浏览器将以及何时支持 getUserMedia？

文章推荐： python - 可以重新忽略惰性量词吗？

文章推荐： ada - 如何为记录类型定义 "+"

文章推荐：语法:自上而下和自下而上的区别？

javascript - setTimeOut 产生 233 fps 而 requestAnimationFrame 产生 61
我在 Chrome 上做了一些测试，requestAnimationFrame 产生了 61 fps 而 setTimeOut( callback, 0 ) 产生了 233 fps。如果一个人想要超
c++ - 为什么 GCC 为 0.0/0.0 产生 -nan 和 clang 和 intel 产生 +nan？
当我调试代码时，我发现 GCC 和 Clang 都为 0.0/0.0 产生 nan，这是我所期望的，但 GCC 产生的 nan 将符号位设置为 1，而Clang 将其设置为 0(如果我没记错的话，与
audio - 产生.WAV声音频率？
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
R:产生 NaN
我在 R Studio 中有一个时间序列。现在我想计算这个系列的log()。我尝试了以下方法: i <- (x-y) ii <- log(i) 但是我得到以下信息:Warning message: I
javascript - 为什么 (![]+[])[+!![]+[]] 产生 "a"
我有兴趣了解 JavaScript 的内部结构.我试图阅读 SpiderMonkey 的来源和 Rhino但是绕过我的头是相当复杂的。我问的原因是:为什么像 (![]+[])[+!![]+[]] 生
delphi - MSHTML PasteHTML() 产生
我们在 Delphi 中使用标准 TWebbrowser 组件，该组件在内部使用 mshtml.dll。另外，我们使用注册表来确保页面使用新的渲染引擎( Web-Browser-Control-Spe
c# - 产生 IList 返回类型
我必须实现一个序列化/反序列化类，并且我正在使用 System.Xml.Serialization 。我有一些IList类型属性并希望在 IList 中序列化解码属于具有特定区域性信息的列表的所有十进
java - 产生 5 万个线程的可扩展性指南
我有一个 Java 应用程序，它读取包含 SQL 查询的 JSON 文件，并使用 JDBC 在数据库上触发它们。现在我有 5 万个这样的文件，我需要生成 5 万个独立线程来读取每个文件并将它们上传到
python - Tensorflow 产生 NaN
我正在尝试将 TensorFlow 入门页面上的示例线性回归程序调整为二次回归。为此，我只是添加了另一个变量并更改了函数。然而，这似乎会导致 NaN 值。这是我的代码: import numpy as
python - KernelPCA 产生 NaN
申请后KernelPCA到我的数据并将其传递给分类器 ( SVC ) 我收到以下错误: ValueError: Input contains NaN, infinity or a value too
java - 产生 IllegalStateException 的基于登录的应用程序
这背后的想法是，如果我的数据库中存在登录名(正确的用户名+密码)，我将重定向到一个页面，并且在进行此身份验证后，他们可以将消息存储在文本文件中。代码非常简单尽管我不确定为什么会收到 IllegalSt
python - 产生 OverflowError 的十进制数的幂
我有一个返回 log10 值的函数。在将它们转换为正常数字时，出现溢出错误。 OverflowError: (34, 'Numerical result out of range') 我检查了日志值，
python - nosetests 产生 ImportError
nosetests 抛出一个 ImportError，尽管我认为这是一个正确配置的 virtualenv。 ==============================================
python - ScrollLabel 产生 ValueError
我是这个网站的新手，所以如果我做错了什么，我提前道歉。当我尝试使用 kivy-garden 的 ScrollLabel 时，它给了我一个错误。基本上我正在尝试创建一个控制台日志，并且我需要能够在文本框
Java MDSJ 产生 NaN
任何人都对 MDSJ 有任何经验？以下输入仅产生 NaN 结果，我不明白为什么。文档非常稀少。 import mdsj.Data; import mdsj.MDSJ; public class MDS
java - cuMemcpyDtoH 产生 CUDA_ERROR_INVALID_VALUE
我有一个非常简单的 scala jcuda 程序，它添加了一个非常大的数组。一切都编译和运行得很好，直到我想从我的设备复制超过 4 个字节到主机。当我尝试复制超过 4 个字节时，我收到 CUDA_ER
flutter - 产生 RenderBox 溢出的英雄动画
我正在使用 Hero 组件在两个页面之间创建动画。Hero 组件用于包装一个 Image 小部件(没问题)和一个 Container 小部件(有问题)。抛出以下溢出错误: ══╡ EXCEPTIO
javascript - 产生*副作用*的表达式到底是什么？
我无法理解页面 https://developer.mozilla.org/en/JavaScript/Reference/Operators/Special/void 中的这一段: This ope
angular - asynsPipe 产生 null 作为第一个值
当在 Angular 中使用不立即触发事件的异步管道时(http 请求或任何有延迟的可观察对象)，第一个值为 null为什么会这样？如何避免这种情况？第一个变化: SimpleChange {
go - 产生 goroutines 的库中的 panic
如果一个导入的库生成了一个会 panic 的 goroutine 怎么办？在这种情况下，开发人员无法阻止程序退出。就像在这段代码中一样，使用延迟恢复调用一个错误的库没有帮助，因为该库正在生成一个 p

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

parsing - 如何为相互递归的 ADT 编写一个解析器，而不产生递归和副作用？