gpt4 book ai didi

c# - 正则表达式 - 文件名中的版本

转载 作者:行者123 更新时间:2023-11-30 23:14:31 32 4
gpt4 key购买 nike

对于要使用 RegEx 解析的文件,我有以下架构

[Custom/Random Name]_[MainVersion]_[MinorVersion].xls

目前我有以下 RegEx(失败)

(?<firstPart>.+)_(?<mainVersion>\d+)(|_(?<minorVersion>\d+))\.xls

当示例字符串为

Hello World_22_1.xls

结果是:

match.Groups["firstPart"].Value == "Hello World_22"
match.Groups["mainVersion"].Value == "1"
match.Groups["minorVersion"].Value == ""

但应该是

match.Groups["firstPart"].Value == "Hello World"
match.Groups["mainVersion"].Value == "22"
match.Groups["minorVersion"].Value == "1"

问题是我的“firstPart”的正则表达式允许任何带有“.+”的字符(包括“_”)所以它一直持续到最后一次出现“_” ",因为我可以像这样重写我的 RegEx

(?<firstPart>[^_]+)_(?<mainVersion>\d+)(|_(?<minorVersion>\d+))\.xls

但是如果文件名是这样的,这个 RegEx 将失败:

Hello_World_22_1.xls

导致:

match.Groups["firstPart"].Value == "World"
match.Groups["mainVersion"].Value == "22"
match.Groups["minorVersion"].Value == "1"

有没有办法向后验证字符串,因为我要找的东西总是在文件名的末尾?

RegEx 应该为这些字符串返回正确的值(为简单起见,我已将所需结果写入带有 [firstPart]/[mainVersion]/[minorVersion] 的大括号中)

Hello World_22_1.xls (Hello World/22/1)
Hello_World_22_1.xls (Hello_World/22/1)
Hello_World_22.xls (Hello_World/22/)
Hello_1_World_22_1.xls (Hello_1_World/22/1)
Hello_1_World_22.xls (Hello_1_World/22/)
Hello_33_2_World_22_1.xls (Hello_33_2_World/22/1)
Hello_22_1_World.xls (//) --> (Wouldnt mind if the your solutions would return Hello_22_1_World as firstPart)
33_22.xls (33/22/)
33_22_1.xls (33/22/1)

尝试反转输入的字符串,但这个“解决方案”非常值得怀疑

static void Main(string[] args)
{
Console.WriteLine(TestRegEx("Hello World_22_1.xls", "Hello World", "22", "1"));
Console.WriteLine(TestRegEx("Hello_World_22_1.xls", "Hello_World", "22", "1"));
Console.WriteLine(TestRegEx("Hello_World_22.xls", "Hello_World", "22", ""));
Console.WriteLine(TestRegEx("Hello_1_World_22_1.xls", "Hello_1_World", "22", "1"));
Console.WriteLine(TestRegEx("Hello_1_World_22.xls", "Hello_1_World", "22", ""));
Console.WriteLine(TestRegEx("Hello_33_2_World_22_1.xls", "Hello_33_2_World", "22", "1"));
Console.WriteLine(TestRegEx("Hello_22_1_World.xls", "", "", ""));
Console.WriteLine(TestRegEx("33_22.xls", "33", "22", ""));
Console.WriteLine(TestRegEx("33_22_1.xls", "33", "22", "1"));

Console.ReadLine();
}

private static bool TestRegEx(string str, string firstPart, string mainVersion, string minorVersion)
{
var regEx = new Regex("slx\\.((?<minorVersion>\\d+)_|)(?<mainVersion>\\d+)_(?<firstPart>.+)");
var reverseStr = new string(str.Reverse().ToArray());

var match = regEx.Match(reverseStr);
var x1 = new string(match.Groups["firstPart"].Value.Reverse().ToArray());
var x2 = new string(match.Groups["mainVersion"].Value.Reverse().ToArray());
var x3 = new string(match.Groups["minorVersion"].Value.Reverse().ToArray());

return x1 == firstPart && x2 == mainVersion && x3 == minorVersion;
}

最佳答案

主要的问题肯定是开头的贪心点模式首先捕获了整个输入,然后回溯只产生最后的数字。为了能够使用可选组并获取它们的内容(如果有的话),您需要使用带有点匹配模式的lazy 量词。

我建议使用

(?<firstPart>.+?)(?:_(?<mainVersion>\d+)(?:_(?<minorVersion>\d+))?)?\.xls

参见 regex demo

详细信息:

  • (?<firstPart>.+?) - 由于惰性 +?,将匹配任何 0+ 个字符的“firstPart”分组尽可能少量词
  • (?:_(?<mainVersion>\d+)(?:_(?<minorVersion>‌​\d+))?)? - 出现 1 次或 0 次:
    • _(?<mainVersion>\d+) - 一个 _和“mainVersion”组捕获一位或多位数字
    • (?:_(?<minorVersion>‌​\d+))? - 一个可选的序列
      • _ - 下划线
      • (?<minorVersion>‌​\d+) - 捕获 1 个以上数字的“minorVersion”组
  • \.xls - 一个 .xls子串。

enter image description here

我更喜欢这个而不是 (?<firstPart>.+?)_(?<mainVersion>\d+)(?:_(?<minorVersion>\d+‌​))?\.xls正则表达式,因为后者不匹配 Hello_22_1_World.xls根本。如果您不需要匹配它,最后一个表达式可能更可取。

关于c# - 正则表达式 - 文件名中的版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43000045/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com