gpt4 book ai didi

python - 匹配多个正则表达式组并删除它们

转载 作者:太空宇宙 更新时间:2023-11-03 13:24:48 24 4
gpt4 key购买 nike

我得到了一个文件,我想从中提取有用的数据。文件的格式是这样的:

LINE: 1
TOKENKIND: somedata
TOKENKIND: somedata
LINE: 2
TOKENKIND: somedata
LINE: 3

等...

我想做的是删除 LINE: 和行号以及 TOKENKIND: 所以我只剩下一个由 'somedata somedate somedata...' 组成的字符串

我正在使用 Python 来执行此操作,使用正则表达式(我不确定是否正确)来匹配我想要删除的文件的位。

我的问题是,如何让 Python 匹配多个正则表达式组并忽略它们,将我的正则表达式不匹配的任何内容添加到我的输出字符串中?我当前的代码如下所示:

import re
import sys

ignoredTokens = re.compile('''
(?P<WHITESPACE> \s+ ) |
(?P<LINE> LINE:\s[0-9]+ ) |
(?P<TOKEN> [A-Z]+: )
''', re.VERBOSE)

tokenList = open(sys.argv[1], 'r').read()
cleanedList = ''

scanner = ignoredTokens.scanner(tokenList)

for line in tokenList:
match = scanner.match()

if match.lastgroup not in ('WHITESPACE', 'LINE', 'TOKEN'):
cleanedList = cleanedList + match.group(match.lastindex) + ' '

print cleanedList

最佳答案

import re

x = '''LINE: 1
TOKENKIND: somedata
TOKENKIND: somedata
LINE: 2
TOKENKIND: somedata
LINE: 3'''

junkre = re.compile(r'(\s*LINE:\s*\d*\s*)|(\s*TOKENKIND:)', re.DOTALL)

print junkre.sub('', x)

关于python - 匹配多个正则表达式组并删除它们,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1791097/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com