gpt4 book ai didi

python - 如何编写正则表达式来匹配以空格分隔的多行列数据

转载 作者:太空宇宙 更新时间:2023-11-04 03:43:53 25 4
gpt4 key购买 nike

所以我有以下形式的日志文件

n400_108tb_48gb           2   G    1,3-7                1       20G /  286T (< 1% ) 
n400_108tb_48gb:1 1 D 1-3:bay1-6 - 2.1G / 48T (< 1% )
n400_108tb_48gb:3 3 D 1-3:bay7-12 - 1.9G / 48T (< 1% )
n400_108tb_48gb:4 4 D 1-3:bay13-18 - 10G / 48T (< 1% )
n400_108tb_48gb:5 5 D 1-3:bay19-24 - 2.0G / 48T (< 1% )
n400_108tb_48gb:6 6 D 1-3:bay25-30 - 2.2G / 48T (< 1% )
n400_108tb_48gb:7 7 D 1-3:bay31-36 - 1.7G / 48T (< 1% )

这看起来不错,处理起来也很简单,所以我只需编写正则表达式来一次处理那一行。

([0-9a-z_:]*)\s*([1-9])\s*([DGPTE])\s*([0-9a-z_:,-]*)\s*([1-9])\s*([0-9.]+[KMGTPE]).*?([0-9]*[KMGTPE])

我的意思是,这很难看,但我可以将其简化为

_name =  r"([0-9a-z_:]*)\s*"
_id = r"([1-9])
_type = r"([DGPTE])"
_members = r"([0-9a-z_:,-]*)"
_vhs = r"([1-9-])"
_used = r"([0-9.]*[KMGTPE])"
_size = r"([0-9.]*[KMGTPE])"
_disk_protections_regex_string = r"{0}\s*{1}\s*{2}\s*{3}\s*{4}\s*{5}.*?{6}".format(
_name,
_id,
_type,
_members,
_vhs,
_used,
_size,)

然后我发现我必须解析这种格式的文件。

s200_13tb_400gb  1     +3 system, vhs_de 1:0-23,      1      53T /  218T (25% )
-ssd_48gb-ram ny_writes, vhs 2:0-23, 3:0-
_hide_spare, 1,3-19,21-25
ssd_metadata , 4:0-23,
5:0-23,
6:0-23,
7:0-23,
8:0-23,
9:0-23,
10:0-23,
11:0-23,
12:0-23,
13:0-23,
14:0-23,
15:0-23,
16:0-23,
17:0-23,
18:2-25

然后突然 期望值是

s200_13tb_400gb-ssd_48gb-ram 
system vhs_deny_writes, vhs_hide_spare, ssd_metadata
1:0-23, 2:0-23, 3:0-1,3-19,21-25, 4:0-23, 5:0-23, 6:0-23, 7:0-23, 8:0-23, 9:0-23, 10:0-23, 11:0-23, 12:0-23, 13:0-23, 14:0-23, 15:0-23, 16:0-23, 17:0-23, 18:0-23,

以及我提供的原始格式。我什至不知道从哪里开始使用空格分隔的列分隔值。

最佳答案

我创建了一个更动态的方法,它可以自己找到列定义。

解释

  1. 脚本首先在文件中查找每个列中的列line 字符是一个空格。
  2. 然后它根据空白列之间定义数据列定义。 + [len(content[0])] 在末尾添加一个额外的空白列,以便在需要时可以访问最后一个数据列。
  3. 使用定义的列提取数据。
  4. 如果数据与特定定义的模式匹配,则打印数据。 警告:如果每个文件有多个记录,则必须更改此步骤。

代码

import re
from collections import Counter

# Patterns to save in the end, [name, attr, values]
patterns = [r"^([0-9a-z_-]{4,}$)", r"^([a-z_,\s]*$)", r"([0-9:,\s-]{4,})$"]

# Get file content, remove any trailing empty line.
with open('/path/to/my/file') as f:
content = f.read().split('\n')
if not content[-1]:
content = content[:-1]

# 1) Find all single character columns in content with only whitespaces.
no_lines = len(content)
whitespaces = [i for l in content for i, char in enumerate(l) if char == ' ']
whi_columns = [k for k, v in Counter(whitespaces).iteritems() if v == no_lines]
# .items() in python3
# 2) Get all real columns that are between whitespace columns.
columns_defs = []
for i, whi_col in enumerate(whi_columns + [len(content[0])]):
if whi_col and not i: #special first column
columns_defs.append(slice(whi_col))
if whi_col > whi_columns[i - 1] + 1:
columns_defs.append(slice(whi_columns[i - 1] + 1, whi_col))

# 3) Extract columns from file content.
data_columns = [[line[col].strip() for line in content] for col in columns_defs]

# 4) Save columns fitting patterns.
for data_col in data_columns:
data = ''.join(data_col)
if re.match(r'|'.join(patterns), data):
print data

输出

s200_13tb_400gb-ssd_48gb-ram
system, vhs_deny_writes, vhs_hide_spare,ssd_metadata
1:0-23,2:0-23, 3:0-1,3-19,21-25, 4:0-23,5:0-23,6:0-23,7:0-23,8:0-23,9:0-23,10:0-23,11:0-23,12:0-23,13:0-23,14:0-23,15:0-23,16:0-23,17:0-23,18:2-25

关于python - 如何编写正则表达式来匹配以空格分隔的多行列数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24792257/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com