gpt4 book ai didi

python - 如何有选择地忽略 python 正则表达式中的字符串?

转载 作者:行者123 更新时间:2023-12-01 03:20:56 25 4
gpt4 key购买 nike

我为我的路由器编写了一个相当基本的系统监视器,用于跟踪信号何时下降(以及当时发生的所有统计数据),因为非常优秀的 routerstatslite 无法收集我需要的所有内容。

这是要点,但我想在将数据上传到 loggly 之前对其进行清理,以便我可以根据需要删除 db 和 mbps 后缀

https://gist.github.com/scottharman/6ca07a7c46ca09de3e3b2f0a5094d86e

script =  stats.findAll('script')[1]
pattern = re.compile('(\w+)="(.*?)Mbps\|dB"')
fields = dict(re.findall(pattern, script.text))
clean_fields = { k:v.strip() for k, v in fields.iteritems()}
if old_fields != clean_fields:
logger.info(json.dumps(clean_fields))
old_fields = clean_fields
print clean_fields
sleep(5)

当我将其直接放入字典中时,我想在找到时丢弃 Mbps 或 dB,但显然我所拥有的不起作用。如果我可以简单地从提取字段时得到的 70-80 个奇数状态行中删除两个字符串,那就更整洁了,但这是否不可能?

干杯

来自脚本标记的示例输入:

var conn_down="    13.35 Mbps";
var conn_up=" 0.82 Mbps";
var line_down=" 34.60 dB";
var line_up=" 19.70 dB";
var noise_down=" 6.10 dB";
var noise_up=" 6.50 dB";

var sys_uptime="74523";
var lan_status="Link up";
var lan_txpkts="1294024";
var lan_rxpkts="2256747";
var lan_collisions="0";
var lan_txbs="10004";
var lan_rxbs="35259";
var lan_systime="74523";

那么处理后的数据如下所示:

u'noise_up': u'6.50 dB', u'lan_rxbs': u'35259', u'an_rxpkts': u'2857867', u'bgn_status': u'600M', u'lan_status0': u'100M/Full', 
u'lan_status3': u'1000M/Full', u'lan_status2': u'100M/Full', u'conn_up': u'0.82 Mbps',

最佳答案

您可以使用可选的非捕获组来匹配 ' Mbps'' dB':

import re
import pprint

s = '''var conn_down=" 13.35 Mbps";
var conn_up=" 0.82 Mbps";
var line_down=" 34.60 dB";
var line_up=" 19.70 dB";
var noise_down=" 6.10 dB";
var noise_up=" 6.50 dB";

var sys_uptime="74523";
var lan_status="Link up";
var lan_txpkts="1294024";
var lan_rxpkts="2256747";
var lan_collisions="0";
var lan_txbs="10004";
var lan_rxbs="35259";
var lan_systime="74523";'''

pattern = re.compile(r'(\w+)=\"\s*(.*?)(?:\sMbps|\sdB)?\"')
fields = dict(re.findall(pattern, s))
pprint.pprint(fields)

输出:

{'conn_down': '13.35',
'conn_up': '0.82',
'lan_collisions': '0',
'lan_rxbs': '35259',
'lan_rxpkts': '2256747',
'lan_status': 'Link up',
'lan_systime': '74523',
'lan_txbs': '10004',
'lan_txpkts': '1294024',
'line_down': '34.60',
'line_up': '19.70',
'noise_down': '6.10',
'noise_up': '6.50',
'sys_uptime': '74523'}

上面的 (\w+)= 捕获一个或多个字母数字字符,后跟 =\"\s* 匹配引号后跟零个或多个空格。(.*?) 非贪婪地捕获任何文本,而 (?:\sMbps|\sdB)? 是可选的非捕获组,与 ' Mbps'' dB' 匹配。请参阅 regex101 demo

关于python - 如何有选择地忽略 python 正则表达式中的字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41928283/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com