gpt4 book ai didi

algorithm - 如何根据简化语法解析单词列表?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:32:47 26 4
gpt4 key购买 nike

澄清一下,这不是家庭作业。我被要求就此寻求帮助,但我无法做到,所以它变成了个人寻求解决它的方法。

想象一下,您有这样一个英语句子的语法:

S => NP VP | VP
NP => N | Det N | Det Adj N
VB => V | V NP
N => i you bus cake bear
V => hug love destroy am
Det => a the
Adj => pink stylish

我已经搜索了几个小时,但真的没有主意。我找到了关于浅层解析、深度优先回溯和相关内容的文章,虽然我对其中的大部分内容都很熟悉,但我仍然不能将它们应用到这个问题上。我标记了 Lisp 和 Haskell,因为它们是我计划使用的语言,但我不介意您在回复中使用其他语言。

我会很感激提示、好的文章和一般的一切。

最佳答案

这是一个有效的 Haskell 示例。事实证明,在您让它发挥作用之前,需要学习一些技巧!第零件事是样板文件:关闭可怕的单态限制,导入一些库,并定义一些不在库中(但应该在库中)的函数:

{-# LANGUAGE NoMonomorphismRestriction #-}
import Control.Applicative ((<*))
import Control.Monad
import Text.ParserCombinators.Parsec

ensure p x = guard (p x) >> return x
singleToken t = tokenPrim id (\pos _ _ -> incSourceColumn pos 1) (ensure (==t))
anyOf xs = choice (map singleToken xs)

现在第零件事已经完成...首先,我们为抽象语法树定义数据类型。我们可以在这里遵循语法的形状。但是,为了方便起见,我考虑了一些语法规则;特别是两条规则

NP => N | Det N | Det Adj N
VB => V | V NP

在实际编写解析器时,以这种方式编写更方便:

NP => N | Det (Adj | empty) N
VB => V (NP | empty)

任何一本关于解析的好书都会有一章介绍为什么这种因式分解是个好主意。所以,AST 类型:

data Sentence
= Complex NounPhrase VerbPhrase
| Simple VerbPhrase
data NounPhrase
= Short Noun
| Long Article (Maybe Adjective) Noun
data VerbPhrase
= VerbPhrase Verb (Maybe NounPhrase)
type Noun = String
type Verb = String
type Article = String
type Adjective = String

然后我们就可以制作我们的解析器了。这一个更紧密地遵循(分解的)语法!这里的一个问题是我们总是希望我们的解析器处理整个句子,因此我们必须通过要求“eof”或"file"结尾来明确要求它这样做。

s   = (liftM2 Complex np vp <|> liftM Simple vp) <* eof
np = liftM Short n <|> liftM3 Long det (optionMaybe adj) n
vp = liftM2 VerbPhrase v (optionMaybe np)
n = anyOf ["i", "you", "bus", "cake", "bear"]
v = anyOf ["hug", "love", "destroy", "am"]
det = anyOf ["a", "the"]
adj = anyOf ["pink", "stylish"]

最后一 block 是分词器。对于这个简单的应用程序,我们将只根据空格进行分词,因此内置的 words 函数可以正常工作。让我们试试吧!在 ghci 中加载整个文件:

*Main> parse s "stdin" (words "i love the pink cake")
Right (Complex (Short "i") (VerbPhrase "love" (Just (Long "the" (Just "pink") "cake"))))
*Main> parse s "stdin" (words "i love pink cake")
Left "stdin" (line 1, column 3):
unexpected "pink"
expecting end of input

这里,Right 表示解析成功,Left 表示错误。由于我们在 singleToken 中计算源位置的方式,错误中报告的“列”号实际上是发生错误的单词编号。

关于algorithm - 如何根据简化语法解析单词列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7803561/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com