gpt4 book ai didi

c# - 正则表达式从一长串没有分区的代码中拆分不同的代码

转载 作者:太空宇宙 更新时间:2023-11-03 19:39:04 25 4
gpt4 key购买 nike

我有一个(基本上)包含大约 600,000 个代码的文件。

它们看起来像这样:

HJ43EKU2

当它们被存储/加载时,它们看起来像这样:

BJX4700QHJ43EKU2KU89EJKM

每个代码都是 8 位数字。

它们是字母数字 (a-Z,0-9),没有重音符号或符号。

所以这可行(用于拆分代码块):

[a-zA-Z0-9][a-zA-Z0-9][a-zA-Z0-9][a-zA-Z0-9][a-zA-Z0-9][a-zA-Z0-9][a-zA-Z0-9][a-zA-Z0-9]

但是有一个问题,因为某些格式的代码不是像这样的有效代码:

MF93276H

第 7 位不能是数字。

这不会太糟糕,除非代码的第二位数字是 N(或字母表中的后面),然后这会使代码再次有效。

我如何为 REGEX 实现一些逻辑,以便它考虑到重新验证代码的规则的“异常(exception)”?

最佳答案

在 C# 中,您可以使用一种已知技术,使用捕获组并稍后对其求值:

var rx = "[a-zA-Z0-9]N[a-zA-Z0-9]{4}[0-9][a-zA-Z0-9]|([a-zA-Z0-9]{6}[0-9][a-zA-Z0-9])|[a-zA-Z0-9]{6}[a-zA-Z][a-zA-Z0-9]";
var results = Regex.Matches("BJX4700QHJ43EKU2KU89EJKM", rx)
.Cast<Match>()
.Where(m => !m.Groups[1].Success)
.Select(z => z.Value);
foreach (var s in results)
Console.WriteLine(s);

参见 C# demo

正则表达式详细信息

  • [a-zA-Z0-9]N[a-zA-Z0-9]{4}[0-9][a-zA-Z0-9] - 有效代码模式第二个字符等于 N
  • | - 或者
  • ([a-zA-Z0-9]{6}[0-9][a-zA-Z0-9]) - 第 1 组(如果匹配,则丢弃):无效代码模式
  • | - 或者
  • [a-zA-Z0-9]{6}[a-zA-Z][a-zA-Z0-9] - 有效代码模式。

注意:如果N(或后面的字母表)表示如果第二个字符是OP .. Z,您需要将第一个备选方案中的N替换为[N-Z]

代码详情

  • .Where(m => !m.Groups[1].Success) - 如果第 1 组不匹配,则匹配是有效代码,因此只获取那些
  • .Select(z => z.Value) - 仅在结果中保留整个匹配对象值文本。

关于c# - 正则表达式从一长串没有分区的代码中拆分不同的代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56809706/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com