python - pyparsing 一个可能包含也可能不包含值的字段-6ren

python - pyparsing 一个可能包含也可能不包含值的字段

转载作者：行者123 更新时间：2023-11-28 17:14:54

25

4

我有一个类似于以下内容的数据集:

捕获 MICR - Serial: Pos44: Trrt: 32904 Acct: Tc: 2064 Opt4: Split:

我遇到的问题是我不知道如何正确地为“Capture MICR - Serial Field”编写捕获。该字段可以为空白或包含不同长度的字母数字(我对其他可以填充或空白的字段有同样的问题。

我已经尝试了以下的一些变体，但仍然不够。

pp.Literal("Capture MICR - Serial:") + pp.White("", min=1, max=0) + (pp.Word(pp.printables) ^ pp.White("", min=1, max=0))("crd_micr_serial") + pp.FollowedBy(pp.Literal("Pos44:"))

我认为部分问题是 Or 匹配最长匹配的解析，在这种情况下可能是一个长的空白字符，只有一个字母数字，但我仍然想要捕获单个值。

感谢大家的帮助。

最佳答案

解析像“A: valueA B: valueB C: valueC”这样的文本的最简单方法是使用 pyparsing 的 SkipTo 类:

a_expr = "A:" + SkipTo("B:")
b_expr = "B:" + SkipTo("C:")
c_expr = "C:" + SkipTo(LineEnd())
line_parser = a_expr + b_expr + c_expr

我想再加强一点:

添加一个解析操作以去除前导和尾随空格
添加一个结果名，方便在行解析后获取结果

下面是这个简单的解析器的样子:

NL = LineEnd()
a_expr = "A:" + SkipTo("B:").addParseAction(lambda t: [t[0].strip()])('A')
b_expr = "B:" + SkipTo("C:").addParseAction(lambda t: [t[0].strip()])('B')
c_expr = "C:" + SkipTo(NL).addParseAction(lambda t: [t[0].strip()])('C')
line_parser = a_expr + b_expr + c_expr

line_parser.runTests("""
    A: 100 B: Fred C:
    A:  B: a value with spaces C: 42
""")

给予:

 A: 100 B: Fred C:
['A:', '100', 'B:', 'Fred', 'C:', '']
- A: '100'
- B: 'Fred'
- C: ''


A:  B: a value with spaces C: 42
['A:', '', 'B:', 'a value with spaces', 'C:', '42']
- A: ''
- B: 'a value with spaces'
- C: '42'

我尽量避免复制/粘贴代码，而宁愿自动执行“A 后跟 B”和“C 之后是行尾”，其中包含一个描述不同提示字符串的列表，然后遍历该列表以构建每个提示字符串子表达式:

import pyparsing as pp

def make_prompt_expr(s):
    '''Define the expression for prompts as 'ABC:' '''
    return pp.Combine(pp.Literal(s) + ':')

def make_field_value_expr(next_expr):
    '''Define the expression for the field value as SkipTo(what comes next)'''
    return pp.SkipTo(next_expr).addParseAction(lambda t: [t[0].strip()])

def make_name(s):
    '''Convert prompt string to identifier form for results names'''
    return ''.join(s.split()).replace('-','_')

# use split to easily define list of prompts in order - makes it easy to update later if new prompts are added
prompts = "Capture MICR - Serial/Pos44/Trrt/Acct/Tc/Opt4/Split".split('/')

# keep a list of all the prompt-value expressions
exprs = []

# get a list of this-prompt, next-prompt pairs
for this_, next_ in zip(prompts, prompts[1:]  + [None]):
    field_name = make_name(this_)
    if next_ is not None:
        next_expr = make_prompt_expr(next_)
    else:
        next_expr = pp.LineEnd()

    # define the prompt-value expression for the current prompt string and add to exprs
    this_expr = make_prompt_expr(this_) + make_field_value_expr(next_expr)(field_name)
    exprs.append(this_expr)

# define a line parser as the And of all of the generated exprs
line_parser = pp.And(exprs)

line_parser.runTests("""\
Capture MICR - Serial:                  Pos44:  Trrt: 32904  Acct:        Tc:   2064        Opt4:          Split:
Capture MICR - Serial:  1729XYZ                Pos44:  Trrt: 32904  Acct:        Tc:   2064        Opt4: XXL         Split: 50
""")

给予:

Capture MICR - Serial:                  Pos44:  Trrt: 32904  Acct:        Tc:   2064        Opt4:          Split:
['Capture MICR - Serial:', '', 'Pos44:', '', 'Trrt:', '32904', 'Acct:', '', 'Tc:', '2064', 'Opt4:', '', 'Split:', '']
- Acct: ''
- CaptureMICR_Serial: ''
- Opt4: ''
- Pos44: ''
- Split: ''
- Tc: '2064'
- Trrt: '32904'


Capture MICR - Serial:  1729XYZ                Pos44:  Trrt: 32904  Acct:        Tc:   2064        Opt4: XXL         Split: 50
['Capture MICR - Serial:', '1729XYZ', 'Pos44:', '', 'Trrt:', '32904', 'Acct:', '', 'Tc:', '2064', 'Opt4:', 'XXL', 'Split:', '50']
- Acct: ''
- CaptureMICR_Serial: '1729XYZ'
- Opt4: 'XXL'
- Pos44: ''
- Split: '50'
- Tc: '2064'
- Trrt: '32904'

关于python - pyparsing 一个可能包含也可能不包含值的字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44890040/

25

4

0

文章推荐： javascript - 在 WordPress 中隐藏选项卡

pyparsing - 需要确认 pyparsing 中 PEG 的语义谓词
PEG论文描述了两种语义谓词解析表达式: 和谓词&e 不是谓词!e pyparsing 是否支持 And 谓词？或者这只是排序解析表达式的同义词？在这种情况下，它应该等同于 And 类。对吗？ Not
pyparsing 不解析整个字符串
我有以下语法和测试用例: from pyparsing import Word, nums, Forward, Suppress, OneOrMore, Group #A grammar for a
pyparsing - 导致多个序列结果的嵌套括号解析案例
我想用这些条件解析带有嵌套括号的字符串: 元素由逗号分隔 ,或吧 | . 嵌套括号元素可能是单个字母数字或另一个嵌套括号。每个嵌套括号元素由条 | 连接字面量导致创建一个新序列，该序列将先前的序列元
recursion - pyparsing 逗号分隔列表内的递归语法空间分隔列表
有以下我要解析的字符串: ((K00134,K00150) K00927,K11389) (K00234,K00235) 每个步骤由空格分隔，交替由逗号表示。我被困在字符串的第一部分，括号内有一个空格
python - pyparsing - 大计算卡住解释器
所以这是取自 fourFn.py 的解析器: from pyparsing import ( Literal, Word, Group, Forward, al
python - pyparsing - 用千位分隔符解析数字
所以我在制作解析器时，发现了一个问题。事实上，为了解析数字，我有: from pyparsing import Word, nums n = Word(nums) 这适用于没有千位分隔符的数字。例如，
literals - PyParsing:是否可以全局抑制所有文字？
我有一个简单的数据集，可以使用如下行进行解析: R1 (a/30) to R2 (b/30), metric 30 我需要从上面得到的唯一数据如下: R1, a, 30, R2, 192.168.0.
nested - Pyparsing - 匹配最外面的一组嵌套括号
我正在尝试使用 pyparsing 来构建一个解析器，该解析器将匹配任意嵌套的一组括号内的所有文本。如果我们考虑这样的字符串: "[A,[B,C],[D,E,F],G] Random Middle t
python - Pyparsing:在parseaction中访问外部ParseResults
from pyparsing import * class AParseActionHolder(object): def __call__(self, string, index, t):
python - Pyparsing packrat会降低性能
我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析，看来这确实可以帮助解析器提高性能。但是，当我启用packrat解析时，性能会变差！如果没有packra
python - Pyparsing 无法解析多个规则
我正在尝试使用一些特殊规则(例如相邻值和邻近值)创建 bool 查询解析器。到目前为止我创建的规则是 ## DEFINITIONS OF SYMBOLS ### NEAR = CaselessLite
python - pyparsing 中调试中缀语法的问题
我编写此脚本是为了使用类似于序言的语法来解析语句，将连接词视为具有优先级的运算符: import pyparsing as pyp alphabet = "abcdefghijklmnopqrstuv
python - pyparsing:忽略任何不匹配的标记
我有一个来自游戏的文件，我正在尝试解析它。以下是摘录: id: 50 #Survival Stage bound: 1500 # phase 0 bandi
python - Pyparsing 中单词中的反斜杠冲突和换行符
我很难理解允许在参数名称中使用“\”的语法(例如 net\)。然而，“\”也可用作续行(参见例 2)。 Ex1 工作正常，但 linebreak 和 identifier 变量之间存在冲突。 Ex1:
python - pyparsing:提取包含特定文本的字符串
我正在尝试学习 pyparsing。这听起来很有希望，并且用于文本处理会很有趣。无论如何，这是我的问题: 我有一个类(class)名称列表。例如， courselist = ["Project Bas
python - Pyparsing:如何实现C风格注释的特殊处理？
我想利用 cStyleComment 变量，但我想专门处理它们，而不是仅仅忽略这些注释。有什么方法可以让 pyparsing 在将其识别为注释的输入片段上调用我的处理程序，然后再将其丢弃吗？我正在处
python - PyParsing - 嵌套表达式和匹配标记
我今天早些时候发布了一个关于同一问题的问题，但由于该问题的解决方案是切换库，而我现在对另一个库有问题，我想我会提出另一个问题......希望没关系。所以我不想匹配以下标记: ... 我不
python - PyParsing 表示函数的字符串
我有一个如下所示的数据: data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading,
python - Pyparsing 找到文件中的第一次出现
我正在通过解析文件 output=wilcard.parseFile(myfile) print output 我确实只得到了字符串的第一个匹配。我有一个大的配置文件需要解析，其中的“条目”用大括号
python - pyparsing 条件解析器
我需要解析以下三行: Uptime is 1w2d Last reset at 23:05:56 Reason: reload 但最后两行并不总是存在，在第一次重新启动之前输出可能如下所示: Up

首页

博学

6Ren·AI

商城

python - pyparsing 一个可能包含也可能不包含值的字段