gpt4 book ai didi

python - 将多个正则表达式合并为一个可能为 "catch them all"的正则表达式

转载 作者:太空宇宙 更新时间:2023-11-04 03:47:05 24 4
gpt4 key购买 nike

我有这个特定的问题,我必须找到一些正则表达式来从我们的部署系统中匹配包。所以现在我有一些像这样的奇怪结构:

def myPkgs():
txt = sys.argv # self.myPKG
txt.pop(0)
pkg_dict = {"Package" : "", "Version" : ""}
pkg_list = []

for i in txt:
re0= "^([a-zA-Z,0-9]*)(-|.)([0-9]*[.|-][0-9]*[.|-][0-9])([.][noarch]*)"
re1 = "^([a-z]*)(-|.)([a-zA-Z,0-9]*)(-|.)([0-9]*[0-9].....??)(-|.)([A-Z,0-9]*)([.][noarch]*)"
re2 = "^([a-z]*)(-|.)([a-zA-Z,0-9]*)(-|.)([0-9]*[0-9].....??[-|.][A-Z,0-9]*)"
rg0 = re.compile(re0)
rg1 = re.compile(re1)
rg2 = re.compile(re2)
m = rg0.search(i)
n = rg1.search(i)
o = rg2.search(i)

if m:
pkg_dict["Package"] = str(m.group(1))
pkg_dict["Version"] = str(m.group(3))

pkg_list.append(pkg_dict)
elif not m:
if n:
pkg_dict["Package"] = str(n.group(1) +n.group(2)+ n.group(3))
pkg_dict["Version"] = str(n.group(5) +n.group(6)+n.group(7))
pkg_list.append(pkg_dict)
elif not n:
if o:
pkg_dict["Package"] = str(o.group(1) + o.group(2) + o.group(3))
pkg_dict["Version"] = str(o.group(5))
pkg_list.append(pkg_dict)
else:
print "No Packet named: %s found" % i
else:
print "No Packet named: %s found" % i
else:
print "No Packet named: %s found" % i
yield pkg_list

但我的问题是我仍然无法准确提取包名和版本号。有没有办法将三个正则表达式模式“合并”到一个可以“捕获所有”的大正则表达式。要匹配的包名可以看起来像这样:

sqlldr-11.2.0.3.0-1.noarch
testbench-2.3-RC3.noarch
tomcat7-34-M1.noarch
uc4-jmx-agent-9.00A124.431-5.x86_64
uc4-jmx-monitoring-1.0-RC1.noarch
uc4-jmx-monitoring-1.0-RC2.noarch
uc4-server-9.00A220_241-2.x86_64
nexus-2.6.0-RC3.noarch
oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64
oracle-instantclient11.2-sqlplus-11.2.0.3.0-1.x86_64
oracle-perl-11.2-RC1.noarch
perl-Crypt-Blowfish_PP-1.12-1:1.noarch
perl-jmx4perl-1.07-1:1.noarch
perl-Test-HTTP-Server-Simple-0.11-1:1.noarch

这个列表应该被分成这样的东西:

提前致谢。

编辑

好吧,包列表可能有些误导。不要看我必须做的事情的 noarch/x86_64 部分(脚本最终必须如何工作。在 CLI 上,用户给出了一个包名称,如“perl-jmx4perl-1.07-1:1.noarch”,然后是什么我希望正则表达式将 cli arg 拆分为“Package”和“Version”,然后函数首先遍历所有 packgaes 以匹配名称。之后函数应遍历版本号以找到确切的版本匹配。还是我想的太复杂了?请告诉我。

亲切的问候

编辑

sqlldr-11.2.0.3.0-1.noarch
testbench-2.3-RC3.noarch
tomcat7-34-M1.noarch
uc4-jmx-agent-9.00A124.431-5.x86_64
uc4-jmx-monitoring-1.0-RC1.noarch
uc4-jmx-monitoring-1.0-RC2.noarch
uc4-server-9.00A220_241-2.x86_64
nexus-2.6.0-RC3.noarch
oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64
oracle-instantclient11.2-sqlplus-11.2.0.3.0-1.x86_64
oracle-perl-11.2-RC1.noarch
perl-Crypt-Blowfish_PP-1.12-1:1.noarch
perl-jmx4perl-1.07-1:1.noarch
perl-Test-HTTP-Server-Simple-0.11-1:1.noarch

应该变成类似这样的东西:

[{'Version': '11.2.0', 'Package': 'sqlldr'}]
[{'Version': '2.3-RC3', 'Package': 'testbench'}]
[{'Version': '7-34-M1', 'Package': 'tomca'}]
[{'Version': '4-jmx-', 'Package': 'u'}]
[{'Version': '4-jmx-', 'Package': 'u'}]
[{'Version': '4-jmx-', 'Package': 'u'}]

但是正如您所看到的,一些重要的部分被解析掉了。因为我不能使用像“4-jmx-”这样的字符串来匹配针对包存储库。或者像'tomca'应该是'tomcat'那么有没有办法匹配它们?还是让正则表达式起作用太棘手了?因为包版本(包名称字符串内的位置)包名不同。这是否更好地澄清了问题?而且我也在问自己是否会更容易进行模糊匹配之类的事情......比如不找到完全匹配而是采用字符串并做出选择,让用户决定哪个是正确的包?提前致谢。

最佳答案

你可以使用这个正则表达式:

^(?P<Package>.*?)-(?P<Version>\d.*?)\.(?:noarch|x86_64)$

描述:

^                   # Match the start of the string
(?P<Package>.*?) # Match any number of characters and store them in 'Package' until...
- # a dash which is followed by...
(?P<Version>\d.*?) # a digit, followed by any number of characters and store them in 'Version' until...
\. # a literal dot, then
(?:noarch|x86_64) # noarch or x86_64
$ # Match the end of the string

这是一个包的例子:

>>> pack = "oracle-instantclient11.2-basic-11.2.0.3.0-1.x86_64"
>>> reg = re.compile(r"^(?P<package>.*?)-(?P<version>\d.*?)\.(?:noarch|x86_64)$")
>>> m = reg.match(pack)
>>> m.groupdict()
{'package': 'oracle-instantclient11.2-basic', 'version': '11.2.0.3.0-1'}

在你的代码中,我相信它可能是这样的:

def myPkgs():
txt = sys.argv # self.myPKG
reg = re.compile(r"^(?P<Package>.*?)-(?P<Version>\d.*?)\.(?:noarch|x86_64)$")

pkg_list = []

for i in txt:
m = reg.match(i)
if m:
pkg_dict = m.groupdict()
pkg_list.append(pkg_dict)
else:
print "No Packet named: %s found" % i

yield pkg_list

对于您评论中的包,这个正则表达式可能会解决它,但我不知道其他包是否会破坏它:

^(?P<package>.*?)-(?P<version>\d+\b.*?)\.(?:noarch|x86_64)

关于python - 将多个正则表达式合并为一个可能为 "catch them all"的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23234895/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com