gpt4 book ai didi

regex - 可以单独提取组的每个出现,但不能作为重复组

转载 作者:行者123 更新时间:2023-12-04 21:30:17 25 4
gpt4 key购买 nike

我有许多文件,其中版本号作为名称的最后一部分。例如:

Xxxxx V2.txt
Xxxxx V2.3.txt
Xxxxx V2.10.txt
Xxxxx V2.10.3.txt

我使用正则表达式提取版本号的部分,以便我可以正确地对文件进行排序†,这样我就可以计算下一个版本号‡。

† 例如:V2.2 在 V2.10 之前,V2.2 在 V2.2.3 之前。

‡ 例如:V2.9 之后的下一个版本是 V2.10。

我可以单独处理每种样式的版本号,但我不能概括为所有样式创建一个正则表达式模式。
Text               Pattern                          Value(s) extracted
Xxxxx V2.txt Xxxxx V(\d+)\.txt 2
Xxxxx V2.3.txt Xxxxx V(\d+)\.(\d+)\.txt 2 3
Xxxxx V2.10.3.txt Xxxxx V(\d+)\.(\d+)\.(\d+)\.txt 2 10 3
Xxxxx V2.10.3.txt Xxxxx V(\d+){\.(\d+)}*\.txt No match

我不明白为什么最后一个模式不适用于每种版本的版本号。任何指导表示赞赏。

回应评论的新部分

我希望我的正则表达式模式中有一个简单的错误,并且我的代码是无关紧要的。我整理了我的测试代码以创建:
Sub CtrlTestCapture()

Dim Patterns As Variant
Dim Texts As Variant

Texts = Array("Xxxxx V12.txt", _
"Xxxxx V12.3.txt", _
"Xxxxx V12.4.5.txt", _
"Xxxxx V12.4.5.3.txt")

Patterns = Array("Xxxxx V(\d+)\.txt", _
"Xxxxx V(\d+)\.(\d+)\.txt", _
"Xxxxx V(\d+)\.(\d+)\.(\d+)\.txt", _
"Xxxxx V(\d+){\.(\d+)}+\.txt", _
"Xxxxx V(\d+)(?:\.(\d+))?(?:\.(\d+))?\.txt" , _
"Xxxxx V(\d+)(\.(\d+))*\.txt")

Call TestCapture(Patterns, Texts)

End Sub
Sub TestCapture(ByRef Patterns As Variant, ByRef Texts As Variant)

Dim InxM As Long
Dim InxS As Long
Dim Matches As MatchCollection
Dim PatternCrnt As Variant
Dim RegEx As New RegExp
Dim SubMatchCrnt As Variant
Dim TextCrnt As Variant

With RegEx
.Global = True ' Find all matches
.MultiLine = False ' Match cannot extend across linebreak
.IgnoreCase = True

For Each PatternCrnt In Patterns
.Pattern = PatternCrnt

For Each TextCrnt In Texts
Debug.Print "==========================================="
Debug.Print " Pattern: """ & PatternCrnt & """"
Debug.Print " Text: """ & TextCrnt & """"
If Not .test(TextCrnt) Then
Debug.Print Space(12) & "Text does not match pattern"
Else
Set Matches = .Execute(TextCrnt)
If Matches.Count = 0 Then
Debug.Print Space(12) & "Match but no captures"
Else
For InxM = 0 To Matches.Count - 1
Debug.Print "-------------------------------------------"
With Matches(InxM)
Debug.Print " Match: " & InxM + 1
Debug.Print " Value: """ & .Value & """"
Debug.Print " Length: " & .Length
Debug.Print "FirstIndex: " & .FirstIndex
For InxS = 0 To .SubMatches.Count - 1
Debug.Print " SubMatch: " & InxS + 1 & " """ & .SubMatches(InxS) & """"
Next
End With
Next
End If
End If
Next
Next
Debug.Print "==========================================="

End With

End Sub

使用此代码,Wiktor Stribiżew 正则表达式模式比我的杂乱代码产生了更好的结果。我将不得不查看我的原始代码以找到我的错误。使用此代码,Wiktor Stribiżew 正则表达式模式的输出为:
===========================================
Pattern: "Xxxxx V(\d+)(?:\.(\d+))?(?:\.(\d+))?\.txt"
Text: "Xxxxx V12.txt"
-------------------------------------------
Match: 1
Value: "Xxxxx V12.txt"
Length: 13
FirstIndex: 0
SubMatch: 1 "12"
SubMatch: 2 ""
SubMatch: 3 ""
===========================================
Pattern: "Xxxxx V(\d+)(?:\.(\d+))?(?:\.(\d+))?\.txt"
Text: "Xxxxx V12.3.txt"
-------------------------------------------
Match: 1
Value: "Xxxxx V12.3.txt"
Length: 15
FirstIndex: 0
SubMatch: 1 "12"
SubMatch: 2 "3"
SubMatch: 3 ""
===========================================
Pattern: "Xxxxx V(\d+)(?:\.(\d+))?(?:\.(\d+))?\.txt"
Text: "Xxxxx V12.4.5.txt"
-------------------------------------------
Match: 1
Value: "Xxxxx V12.4.5.txt"
Length: 17
FirstIndex: 0
SubMatch: 1 "12"
SubMatch: 2 "4"
SubMatch: 3 "5"
===========================================
Pattern: "Xxxxx V(\d+)(?:\.(\d+))?(?:\.(\d+))?\.txt"
Text: "Xxxxx V12.4.5.3.txt"
Text does not match pattern
===========================================

这具有固定数量的捕获,而不是我尝试的可变数量。我还必须弄清楚如何扩展它以处理“12.4.5.3”,这是我见过的最复杂的版本号样式。这并不完美,但绝对是对我当前解决方法的改进。您正在使用我不认识的正则表达式字符,因此我需要仔细研究。

使用上面的代码,Tiw 正则表达式模式产生了这个输出:
===========================================
Pattern: "Xxxxx V(\d+)(\.(\d+))*\.txt"
Text: "Xxxxx V12.txt"
-------------------------------------------
Match: 1
Value: "Xxxxx V12.txt"
Length: 13
FirstIndex: 0
SubMatch: 1 "12"
SubMatch: 2 ""
SubMatch: 3 ""
===========================================
Pattern: "Xxxxx V(\d+)(\.(\d+))*\.txt"
Text: "Xxxxx V12.3.txt"
-------------------------------------------
Match: 1
Value: "Xxxxx V12.3.txt"
Length: 15
FirstIndex: 0
SubMatch: 1 "12"
SubMatch: 2 ".3"
SubMatch: 3 "3"
===========================================
Pattern: "Xxxxx V(\d+)(\.(\d+))*\.txt"
Text: "Xxxxx V12.4.5.txt"
-------------------------------------------
Match: 1
Value: "Xxxxx V12.4.5.txt"
Length: 17
FirstIndex: 0
SubMatch: 1 "12"
SubMatch: 2 ".5"
SubMatch: 3 "5"
===========================================
Pattern: "Xxxxx V(\d+)(\.(\d+))*\.txt"
Text: "Xxxxx V12.4.5.3.txt"
-------------------------------------------
Match: 1
Value: "Xxxxx V12.4.5.3.txt"
Length: 19
FirstIndex: 0
SubMatch: 1 "12"
SubMatch: 2 ".3"
SubMatch: 3 "3"
===========================================

也就是说,它似乎总是捕捉到:第一部分,包括点的最后部分和没有点的最后部分。有希望但不完全在那里。

第 3 部分

我忽略了对我寻求的结果进行明确解释的要求。

我在所有重要文件上都使用版本号。我从其他人那里收到包含版本号的文件,其中一些比我的复杂得多。我总是将版本号作为文件名的最后一部分,并且在版本号之前总是有一个“V”。如果我收到不符合我的格式的文件,我会重命名它们。所以我的文件名称如下:
  • Xxxxx VN.xxx
  • Xxxxx VN.N.xxx
  • Xxxxx VN.N.N.xxx
  • Xxxxx VN.N.N.N.xxx

  • 我希望将 Ns 提取到可变长度数组或集合中,以便可以使用通用例程处理它们。事实上,我已经有了那些通用的例程。这些例程依赖于一些提取 Ns 的杂乱 VBA 代码。我认为使用 Regex 可以让我整理我的代码。

    最佳答案

    试试这个正则表达式:

    V(\d+(?:\.\d+)*)\.txt$

    所需的版本在第 1 组中捕获。您可以使用 . 进一步拆分第 1 组的内容。

    Click for Demo

    代码:
    Dim objReg, strFile, objMatches, strVersion, arrVersion
    strFile = "Xxxxx V2.3.txt"
    Set objReg = New RegExp
    objReg.Global = True
    objReg.Multiline = True
    objReg.Pattern = "V(\d+(?:\.\d+)*)\.txt$"

    If objReg.Test(strFile) Then
    Set objMatches = objReg.Execute(strFile)
    strVersion = objMatches.item(0).submatches.item(0) 'To get the full version number
    arrVersion = Split(strVersion,".") 'To get each number in the version(stored in array)
    End If

    正则表达式解释:
  • V(\d+(?:\.\d+)*)\.txt$
  • V - 匹配 V
  • (\d+(?:\.\d+)*) - 匹配 1+ 次出现的数字。匹配尽可能多的数字后,匹配 0 次或多次出现的点 .后跟 1+ 位数字。这整场比赛在第 1 组中被捕获,并且是您所需的版本号
  • \.txt - 匹配 .txt
  • $ - 断言行尾。
  • 关于regex - 可以单独提取组的每个出现,但不能作为重复组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54181145/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com