短语重复 n 次的正则表达式？-6ren

短语重复 n 次的正则表达式？

转载作者：行者123 更新时间：2023-12-04 18:25:06

25

4

我让用户输入文本 block ，我试图阻止他们重复一个短语超过 5 次。所以这很好:

I like fish very much I like fish very much I like fish very much

这也是:

Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy.

但这不会是:

I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much

也不是这个:

Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy.

理想情况下，即使它是这样输入的，它也会捕获它:

I like fish very much
I like fish very much
I like fish very much
I like fish very much
I like fish very much
I like fish very much

我试过:

\b(\S.*\S)[ ,.]*\b(\1){5}

但它并不总是有效，这取决于短语的长度，而且似乎只有在每个句子都以句号结尾时才有效。

有什么想法吗？

最佳答案

这是一种可能:

(\b\w.{3,49})\1{4}

它在一组中捕获 2 到 50 个字符(以单词字符开头)，并检查该组是否连续至少重复 5 次。

https://regex101.com/r/tS6kHF/2

如果正则表达式通过，则有一些重复的短语。

也就是说，这可能不是一个好主意，尤其是对于大型输入字符串 - 正如您在链接中看到的那样，它需要非常多的步骤，因为对于输入中的每个字符(例如，以“hello")，它要找到对应的长度为2的子串("he")并检查它是否不重复，然后找到"hel"和后面的内容，然后找到"hell"和后面的内容，等等，50次.然后，它从下一个字符开始，“e”:“el”，然后是“ell”，然后是“ello”等。(你确实需要一个上限，比如 50 个字符，或者其他什么- 否则，计算时间会增加，例如 8k 步到 74k 步)

根据情况，计算量可能很大 - 使用另一种方法可能会更好 programatically find重复子串。

关于短语重复 n 次的正则表达式？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53274214/

25

4

0

文章推荐： sql - 根据日期对记录总数进行分组

文章推荐： regex - 这个递归正则表达式究竟是如何工作的？

文章推荐： sql - oracle DB - 加入一个凌乱的字符串

文章推荐： laravel - 路由参数的构造函数注入(inject)

linux - 从1行获取带有awk的字符串/短语
我们正在使用一个脚本，它会返回以下内容120007CONSULTA DE DEUDA CORRECTA.01TEST我正在尝试从awk中获得 CONSULTA DE DEUDA CORRECTA 的短
elasticsearch - 如何增强ES中应子句的某些单词/短语？
我正在使用以下查询: { "_source": [ "title", "bench", "id_", "court",
r - 如何在R中找到相似的句子/短语？
例如，我有数十亿个短语，我想要将相似的短语聚集在一起。 > strings.to.cluster <- c("Best Toyota dealer in bay area. Drive out wit
python - 匹配文本中存储的关键字/短语
我有一个包含大约 1000 个关键字/短语(一到四个字长)的数据库表 - 这个表很少更改，所以我可以将数据提取到更有用的东西中(比如正则表达式？) - 所以这没有找到/基于自然语言处理猜测关键词..
MySQL 全文关键字/短语
我想确保我从一开始就做对了，但我找不到好的答案，所以我想问一下。我要做的是以下内容。以一句话为例:The quick brown fox jumped over the lazy dog"并使用全
php - 在数据库中搜索整个字符串/短语
我有一个表单，其中有两个单选按钮。应该从字符串中搜索整个字符串，第二个应该搜索至少一个单词。例如: 我将搜索“Awesome ideas for startup”。如果我选中“搜索整个字符串/短
linux - 如何匹配文本中的关键字/短语？
我有... 一组固定关键字和词组(大约 1,000,000 个)，例如 birthday、happy new year、vacation等 10 到 500 字之间的一些可变文本。我想…… 识别文本
python - 有没有办法删除字符串中重复和连续的单词/短语？
有没有办法删除字符串中重复的和连续的单词/短语？例如。 [in]: foo foo bar bar foo bar [out]: foo bar foo bar 我试过这个: >>> s = 'thi
nlp - 如何在文本中搜索(可分离的)短语
我正在寻找一种在文本中搜索短语或惯用表达的方法，无论时态或可能的介词/副词如何，例如如果我正在寻找 call off我还想找到 My boss called the meeting off. 之类的用
powershell - PowerShell 短语 "| ? {...}"是什么意思？
PowerShell 有一些语法特性，我找不到太多相关文档。今天我的问题是 ? {...} 例子 PS> Get-SPServiceInstance | ? {$_.GetType.toString(
lucene - Solr 常见关键字/短语
我通过 PHP 使用 Solr 来搜索我网站的各个方面。我正在尝试实现一项功能，但找不到任何有关如何实现它的信息。我有一组文档(评论)，每个文档都与特定产品有关。我想找到出现在单个产品的多条评论中
nlp - cyc 术语的自然语言单词(短语)
我正在从事自然语言生成任务，需要检索与 Cyc 术语等效的自然语言单词或短语。例如。 “#$EatingEvent”->“吃”或“#$Coyote-Animal”->“土狼”。如何通过 Java A
java - Java 正则表达式中强制最后一个单词和可选的前面单词/短语
我在使用 Java 中的以下正则表达式时遇到问题。我删除了双引号，以使其更具可读性。由于缺乏更好的词，我还将每个“组件”放在单独的行上(但实际的表达式会将行合并，行之间没有空格): (?:\bIN(?
php - 从数据库获取流行词("trending"短语)
我有一个 MySQL 数据库，我正在尝试使用 PHP 获取趋势主题(流行短语或单词)。我尝试了一些查询，但似乎没有什么对我有用。最佳答案您可以尝试创建一个包含两列的新表:WORD 和 COUNT，
PHP & MySql 匹配字符串中的单词/短语
我在 MySql 中有一个包含城市的表。 |---------------------|------------------| | ID | City
c# - 使用正则表达式处理 bool 短语
我正在处理搜索页面上的用户输入。如果用户选择“所有单词”类型的搜索，那么我会从搜索文本中删除所有 bool 搜索运算符，并在每个真实单词之间添加 ' AND '。在大多数情况下非常简单。但是，我不知道
python - nltk 中是否有内置方法来查找与给定单词紧密匹配的单词/短语？
我使用的语音识别软件给出的结果不是最佳的。例如:session 返回为 fashion 或 mission。现在我有一本像这样的字典: matches = { 'session': ['fas
php - 所有已安装字体的视觉列表以及相应的 pangram 短语？
我厌倦了使用 Gimp 无休止地滚动所有字体来不规律地搜索完美字体，所以我想:“为什么不为每种字体构建一个可视的 pangrams 列表”。因此，我尝试构建一个 php 脚本，该脚本在 .fonts
JavaScript RegEx 排除某些单词/短语？
如何编写一个 RegEx 模式来测试一个字符串是否包含多个具有以下结构的子字符串: "cake.xxx" xxx 是任何东西，但不是“奶酪”、“牛奶”或“黄油”。例如: “我有一个 cake.hon
elasticsearch - 如何从 ElasticSearch 记录中聚合匹配的前缀/短语？
我有一个字段“部门”，它是一个列表:{“部门”:[“餐饮服务”，“软件开发”，“制造”，“部署”]}' 我想聚合“部门”中以“d”开头的元素。即，从所有记录进行部署。我能够找到包含一个前缀为“d”但

首页

博学

6Ren·AI

商城

短语重复 n 次的正则表达式？