python - 如何使用pyparsing LineStart？-6ren

python - 如何使用pyparsing LineStart？

转载作者：太空宇宙更新时间：2023-11-04 03:05:20

24

4

我正在尝试使用 pyparsing 从文档中的评论中解析键值对。一个键从一行的开头开始，然后是一个值。值可以在以空格开头的多行上继续。

import pyparsing as pp

instring = """
-- This is (a) #%^& comment

/*
name1: val
name2: val2 with $*&#@) junk
name3: val3: with @)(*% multi-
       line: content
*/
"""

comment1 = pp.Literal("--") + pp.originalTextFor(pp.SkipTo(pp.LineEnd())).setDebug()
identifier = pp.Word(pp.alphanums + "_").setDebug()
meta1 = pp.LineStart() + identifier + pp.Literal(":") + pp.SkipTo(pp.LineEnd())
meta2 = pp.LineStart() + pp.White() + pp.SkipTo(pp.LineEnd())
metaval = meta1 + pp.ZeroOrMore(meta2)
metalist = pp.ZeroOrMore(comment1) + pp.Literal("/*") + pp.OneOrMore(metaval) + pp.Literal("*/")

if __name__ == "__main__":
    p = metalist.parseString(instring)
    print(p)

失败:

Matched {Empty SkipTo:(LineEnd) Empty} -> ['This is (a) #%^& comment']

File "C:\Users\user\py3\lib\site-packages\pyparsing.py", line 2305, in parseImpl
raise ParseException(instring, loc, self.errmsg, self)
pyparsing.ParseException: Expected start of line (at char 32), (line:4, col:1)

pyparsing whitespace match issues 的答案说

LineStart has always been difficult to work with, but ...

如果解析器位于第 4 行第 1 列(第一个键值对)，那么为什么它找不到行首？识别以无空格开头的行和以空格开头的行的正确 pyparsing 语法是什么？

最佳答案

我认为我对 LineStart 的困惑是，对于 LineEnd，我可以寻找一个 '\n' 字符，但是LineStart 没有单独的字符。所以在 LineStart 中，我查看当前解析器位置是否正好位于 '\n' 之后；或者，如果它当前在 '\n' 上，请越过它并继续。不幸的是，我在一个弄乱了报告位置的地方实现了这个，所以你会得到那些奇怪的错误，比如“无法在第 X 列 1 行上找到行的开头”，这听起来确实应该是一个成功匹配的一行的开始。另外，我想我需要重新审视这种隐式的换行跳过，或者就此而言，LineStart 的所有空格跳过。

现在，我已经通过稍微扩展您的行起始表达式来让您的代码正常工作，如:

LS = pp.Optional(pp.LineEnd()) + pp.LineStart()

并用 LS 替换了 meta1 和 meta2 中的 LineStart 引用:

comment1 = pp.Literal("--") + pp.originalTextFor(pp.SkipTo(pp.LineEnd())).setDebug()
identifier = pp.Word(pp.alphanums + "_").setDebug()
meta1 = LS + identifier + pp.Literal(":") + pp.SkipTo(pp.LineEnd())
meta2 = LS + pp.White() + pp.SkipTo(pp.LineEnd())
metaval = meta1 + pp.ZeroOrMore(meta2)
metalist = pp.ZeroOrMore(comment1) + pp.Literal("/*") + pp.OneOrMore(metaval) + pp.Literal("*/")

如果 LineStart 的这种情况让您感到不舒服，您可以尝试另一种策略:使用解析时条件仅接受从第 1 列开始的标识符:

comment1 = pp.Literal("--") + pp.originalTextFor(pp.SkipTo(pp.LineEnd())).setDebug()

identifier = pp.Word(pp.alphanums + "_").setName("identifier")
identifier.addCondition(lambda instring,loc,toks: pp.col(loc,instring) == 1)

meta1 = identifier + pp.Literal(":") + pp.SkipTo(pp.LineEnd()).setDebug()
meta2 = pp.White().setDebug() + pp.SkipTo(pp.LineEnd()).setDebug()
metaval = meta1 + pp.ZeroOrMore(meta2, stopOn=pp.Literal('*/'))
metalist = pp.ZeroOrMore(comment1) + pp.Literal("/*") + pp.LineEnd() + pp.OneOrMore(metaval) + pp.Literal("*/")

此代码完全取消了 LineStart，同时我弄清楚了我想要这个特定标记做什么。我还必须修改 metaval 中的 ZeroOrMore 重复，这样 */ 就不会被意外处理为连续的评论内容。

感谢您对此的耐心等待——我不想快速推出一个修补过的 LineStart 更改，然后发现我忽略了其他兼容性或其他边缘情况，这些情况只会让我回到当前状态这门课的状态不太好。但在发布 2.1.10 之前，我会努力澄清这种行为。

关于python - 如何使用pyparsing LineStart？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39642432/

24

4

0

文章推荐： html - 如何在不同分辨率下将叠加层保持在屏幕上的相同位置？

文章推荐： C 宽字符 - 如何使用它们？

文章推荐： C 模数和余数

文章推荐： python - 在混合类型的嵌套元组中打印格式化 float

pyparsing - 需要确认 pyparsing 中 PEG 的语义谓词
PEG论文描述了两种语义谓词解析表达式: 和谓词&e 不是谓词!e pyparsing 是否支持 And 谓词？或者这只是排序解析表达式的同义词？在这种情况下，它应该等同于 And 类。对吗？ Not
pyparsing 不解析整个字符串
我有以下语法和测试用例: from pyparsing import Word, nums, Forward, Suppress, OneOrMore, Group #A grammar for a
pyparsing - 导致多个序列结果的嵌套括号解析案例
我想用这些条件解析带有嵌套括号的字符串: 元素由逗号分隔 ,或吧 | . 嵌套括号元素可能是单个字母数字或另一个嵌套括号。每个嵌套括号元素由条 | 连接字面量导致创建一个新序列，该序列将先前的序列元
recursion - pyparsing 逗号分隔列表内的递归语法空间分隔列表
有以下我要解析的字符串: ((K00134,K00150) K00927,K11389) (K00234,K00235) 每个步骤由空格分隔，交替由逗号表示。我被困在字符串的第一部分，括号内有一个空格
python - pyparsing - 大计算卡住解释器
所以这是取自 fourFn.py 的解析器: from pyparsing import ( Literal, Word, Group, Forward, al
python - pyparsing - 用千位分隔符解析数字
所以我在制作解析器时，发现了一个问题。事实上，为了解析数字，我有: from pyparsing import Word, nums n = Word(nums) 这适用于没有千位分隔符的数字。例如，
literals - PyParsing:是否可以全局抑制所有文字？
我有一个简单的数据集，可以使用如下行进行解析: R1 (a/30) to R2 (b/30), metric 30 我需要从上面得到的唯一数据如下: R1, a, 30, R2, 192.168.0.
nested - Pyparsing - 匹配最外面的一组嵌套括号
我正在尝试使用 pyparsing 来构建一个解析器，该解析器将匹配任意嵌套的一组括号内的所有文本。如果我们考虑这样的字符串: "[A,[B,C],[D,E,F],G] Random Middle t
python - Pyparsing:在parseaction中访问外部ParseResults
from pyparsing import * class AParseActionHolder(object): def __call__(self, string, index, t):
python - Pyparsing packrat会降低性能
我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析，看来这确实可以帮助解析器提高性能。但是，当我启用packrat解析时，性能会变差！如果没有packra
python - Pyparsing 无法解析多个规则
我正在尝试使用一些特殊规则(例如相邻值和邻近值)创建 bool 查询解析器。到目前为止我创建的规则是 ## DEFINITIONS OF SYMBOLS ### NEAR = CaselessLite
python - pyparsing 中调试中缀语法的问题
我编写此脚本是为了使用类似于序言的语法来解析语句，将连接词视为具有优先级的运算符: import pyparsing as pyp alphabet = "abcdefghijklmnopqrstuv
python - pyparsing:忽略任何不匹配的标记
我有一个来自游戏的文件，我正在尝试解析它。以下是摘录: id: 50 #Survival Stage bound: 1500 # phase 0 bandi
python - Pyparsing 中单词中的反斜杠冲突和换行符
我很难理解允许在参数名称中使用“\”的语法(例如 net\)。然而，“\”也可用作续行(参见例 2)。 Ex1 工作正常，但 linebreak 和 identifier 变量之间存在冲突。 Ex1:
python - pyparsing:提取包含特定文本的字符串
我正在尝试学习 pyparsing。这听起来很有希望，并且用于文本处理会很有趣。无论如何，这是我的问题: 我有一个类(class)名称列表。例如， courselist = ["Project Bas
python - Pyparsing:如何实现C风格注释的特殊处理？
我想利用 cStyleComment 变量，但我想专门处理它们，而不是仅仅忽略这些注释。有什么方法可以让 pyparsing 在将其识别为注释的输入片段上调用我的处理程序，然后再将其丢弃吗？我正在处
python - PyParsing - 嵌套表达式和匹配标记
我今天早些时候发布了一个关于同一问题的问题，但由于该问题的解决方案是切换库，而我现在对另一个库有问题，我想我会提出另一个问题......希望没关系。所以我不想匹配以下标记: ... 我不
python - PyParsing 表示函数的字符串
我有一个如下所示的数据: data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading,
python - Pyparsing 找到文件中的第一次出现
我正在通过解析文件 output=wilcard.parseFile(myfile) print output 我确实只得到了字符串的第一个匹配。我有一个大的配置文件需要解析，其中的“条目”用大括号
python - pyparsing 条件解析器
我需要解析以下三行: Uptime is 1w2d Last reset at 23:05:56 Reason: reload 但最后两行并不总是存在，在第一次重新启动之前输出可能如下所示: Up

首页

博学

6Ren·AI

商城

python - 如何使用pyparsing LineStart？