gpt4 book ai didi

javascript - 使用 PEG.js 的简单解析问题

转载 作者:行者123 更新时间:2023-12-02 22:59:46 26 4
gpt4 key购买 nike

我试图通过在 PEG.js playground 中输入简单的语法来理解 PEG。

示例 1:

  • 输入:“abcdef1234567ghijklmn8901opqrs”
  • 所需输出:["abcdef", "1234567",
    “ghijklmn”,“8901”,“opqrs”]

  • 实际输出:["abcdef", ["1234567", ["ghijklmn", ["8901", ["opqrs", ""]]]]]

这个例子几乎可以工作,但是我可以让 PEG.js 不将结果数组嵌套到一百万个级别吗?我认为诀窍是在某处使用 concat() 而不是 join(),但我找不到那个位置。

start
= Text

Text
= Numbers Text
/ Characters Text
/ EOF

Numbers
= numbers: [0-9]+ {return numbers.join("")}

Characters
= text: [a-z]+ {return text.join("")}

EOF
= !.

示例 2:

与示例 1 相同的问题和代码,但将字符规则更改为以下内容,我预计会产生相同的结果。

Characters
= text: (!Numbers .)+ {return text.join("")}

结果输出是:

[",a,b,c,d,e,f", ["1234567", [",g,h,i,j,k,l,m,n", ["8901", [",o,p,q,r,s", ""]]]]]

为什么我会得到所有这些空匹配项?

示例 3:

最后一个问题。这根本行不通。我怎样才能让它发挥作用?对于奖励积分,有什么关于效率的建议吗?例如,如果可能的话,我应该避免递归吗?

我也希望有一个优秀的 PEG 教程的链接。我已阅读( http://www.codeproject.com/KB/recipes/grammar_support_1.aspx ),但如您所见,我需要更多帮助......

  • 输入:'abcdefghijklmnop"qrstuvwxyz"abcdefg'
  • 所需输出:["abcdefghijklmnop", "qrstuvwxyz",
    “abcdefg”]
  • 实际输出:“abcdefghijklmnop\”qrstuvwxyz\“abcdefg”
start
= Words

Words
= Quote
/ Text
/ EOF

Quote
= quote: ('"' .* '"') Words {return quote.join("")}

Text
= text: (!Quote . Words) {return text.join("")}

EOF
= !.

最佳答案

我在 PEG.js Google 群组中收到了回复,它帮助我走上了正确的道路。我发布了所有三个问题的答案,希望它们可以作为像我这样的其他 PEG 初学者的基本教程。请注意,不需要递归。

示例 1:

一旦您了解了基本的 PEG 习惯用法,这就很简单了。

start
= Text+

Text
= Numbers
/ Characters

Numbers
= numbers: [0-9]+ {return numbers.join("")}

Characters
= text: [a-z]+ {return text.join("")}

示例 2:

这里的问题是 PEG.js 解析器生成器中针对 Peek 表达式(&expr 和 !expr)的特殊设计选择。两者都在不消耗任何字符的情况下向前查看输入流,因此我错误地认为它们没有返回任何内容。然而,它们都返回一个空字符串。我希望 PEG.js 的作者改变这种行为,因为(据我所知)这只是污染输出流的不必要的麻烦。如果我的理解有误,请指正!

无论如何,这里有一个解决方法:

start
= Text+

Text
= Numbers
/ Words

Numbers
= numbers: [0-9]+ {return numbers.join("")}

Words
= text: Letter+ {return text.join("")}

Letter
= !Numbers text: . {return text}

示例 3:

问题是像 ('"' .* '"') 这样的表达式永远不会成功。 PEG 总是贪婪的,因此 .* 将消耗输入流的其余部分,并且永远不会看到第二个引号。这是一个解决方案(顺便说一句,它需要与示例 2 中相同的 Peek 解决方法)。

start
= Words+

Words
= QuotedString
/ Text

QuotedString
= '"' quote: NotQuote* '"' {return quote.join("")}

NotQuote
= !'"' char: . {return char}

Text
= text: NotQuote+ {return text.join("")}

关于javascript - 使用 PEG.js 的简单解析问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3612836/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com