gpt4 book ai didi

c# - 从文本中提取 3 个词

转载 作者:太空宇宙 更新时间:2023-11-03 20:19:39 24 4
gpt4 key购买 nike

我必须编写一个正则表达式来从文本中获取三个词。单词之间用一个空格隔开。我写的代码并没有给出所有的序列。例如,对于文本“一二三四五六”,我只有两个序列:1.一二三 2.四五六。但我希望我的正则表达式给我所有序列,所以输出将是:1.一二三 2.二三四 3.三四五。 4.四五六。有人可以告诉我我的正则表达式有什么问题吗?这是我的代码:

   string input = "one two three four five six";
string pattern = @"([a-zA-Z]+ ){2}[a-zA-Z]+";
Regex rgx = new Regex(pattern, RegexOptions.IgnoreCase);
MatchCollection matches = rgx.Matches(input);
if (matches.Count > 0)
{
Console.WriteLine("{0} ({1} matches):", input, matches.Count);
Console.WriteLine();
foreach (Match match in matches)
Console.WriteLine(match.Value);
}
Console.ReadLine();

最佳答案

您的正则表达式没有任何问题 - 这就是正则表达式的工作方式。当您找到一个匹配项时,将在您刚刚找到的匹配项的末尾继续搜索下一个匹配项 - 匹配项的宽度消耗

那么,如何解决这个问题呢?一种方法是让你的比赛不消耗任何东西。您可以通过将原始模式放在零宽度正先行断言中来做到这一点:

string pattern = @"(?=([a-zA-Z]+ ){2}[a-zA-Z]+)";
added ---> *** *

(?=pattern)说“只有在紧接着匹配 pattern 的东西之后才匹配” - 但内容匹配 pattern不是整体匹配的一部分,因此不会被消耗。

如果它不是匹配项的一部分,它就不会出现在 match.Value 中- 那么你如何获得值(value)呢?简单 - 只需在原始模式周围添加一个捕获组(即 (?=(pattern)) ),捕获的组将正常出现在您的结果中。

string pattern = @"(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added ---> * *

现在,您可以查看您的 foreach像以前一样循环,但是 match.Value将为空 - 您想要的结果在 match.Groups[1].Value 中.

但是现在你有另一个问题。你的结果是

one two three
ne two three
e two three
two three four
wo three four

等等。这是因为您的模式匹配即使您从一个单词的中途开始

如何解决这个问题?

我们添加另一个零宽度断言,这次是一个负向回顾:(?<![a-zA-Z]) .它不是说“仅当该点后跟模式时才匹配”,而是说“从不匹配如果该点之前是模式”。因此我们永远不会匹配前面有字母的点。 ne two three不返回,例如,因为它前面有 o .

string pattern = @"(?<![a-zA-Z])(?=(([a-zA-Z]+ ){2}[a-zA-Z]+))";
added ---> *************

有了这个模式,您终于得到了预期的结果。

关于c# - 从文本中提取 3 个词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14458555/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com