- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我让用户输入文本 block ,我试图阻止他们重复一个短语超过 5 次。所以这很好:
I like fish very much I like fish very much I like fish very much
这也是:
Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy.
但这不会是:
I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much I like fish very much
也不是这个:
Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy. Marshmallows are yummy.
理想情况下,即使它是这样输入的,它也会捕获它:
I like fish very much
I like fish very much
I like fish very much
I like fish very much
I like fish very much
I like fish very much
我试过:
\b(\S.*\S)[ ,.]*\b(\1){5}
但它并不总是有效,这取决于短语的长度,而且似乎只有在每个句子都以句号结尾时才有效。
有什么想法吗?
最佳答案
这是一种可能:
(\b\w.{3,49})\1{4}
它在一组中捕获 2 到 50 个字符(以单词字符开头),并检查该组是否连续至少重复 5 次。
https://regex101.com/r/tS6kHF/2
如果正则表达式通过,则有一些重复的短语。
也就是说,这可能不是一个好主意,尤其是对于大型输入字符串 - 正如您在链接中看到的那样,它需要非常多的步骤,因为对于输入中的每个字符(例如,以“hello"),它要找到对应的长度为2的子串("he")并检查它是否不重复,然后找到"hel"和后面的内容,然后找到"hell"和后面的内容,等等,50次.然后,它从下一个字符开始,“e”:“el”,然后是“ell”,然后是“ello”等。(你确实需要一个上限,比如 50 个字符,或者其他什么- 否则,计算时间会增加,例如 8k 步到 74k 步)
根据情况,计算量可能很大 - 使用另一种方法可能会更好 programatically find重复子串。
关于短语重复 n 次的正则表达式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53274214/
我们正在使用一个脚本,它会返回以下内容120007CONSULTA DE DEUDA CORRECTA.01TEST我正在尝试从awk中获得 CONSULTA DE DEUDA CORRECTA 的短
我正在使用以下查询: { "_source": [ "title", "bench", "id_", "court",
例如,我有数十亿个短语,我想要将相似的短语聚集在一起。 > strings.to.cluster <- c("Best Toyota dealer in bay area. Drive out wit
我有一个包含大约 1000 个关键字/短语(一到四个字长)的数据库表 - 这个表很少更改,所以我可以将数据提取到更有用的东西中(比如正则表达式?) - 所以这没有找到/基于自然语言处理猜测关键词..
我想确保我从一开始就做对了,但我找不到好的答案,所以我想问一下。 我要做的是以下内容。 以一句话为例:The quick brown fox jumped over the lazy dog"并使用全
我有一个表单,其中有两个单选按钮。 应该从字符串中搜索整个字符串,第二个应该搜索至少一个单词。 例如: 我将搜索“Awesome ideas for startup”。 如果我选中“搜索整个字符串/短
我有... 一组固定关键字和词组(大约 1,000,000 个),例如 birthday、happy new year、vacation等 10 到 500 字之间的一些可变文本。 我想…… 识别文本
有没有办法删除字符串中重复的和连续的单词/短语?例如。 [in]: foo foo bar bar foo bar [out]: foo bar foo bar 我试过这个: >>> s = 'thi
我正在寻找一种在文本中搜索短语或惯用表达的方法,无论时态或可能的介词/副词如何,例如如果我正在寻找 call off我还想找到 My boss called the meeting off. 之类的用
PowerShell 有一些语法特性,我找不到太多相关文档。今天我的问题是 ? {...} 例子 PS> Get-SPServiceInstance | ? {$_.GetType.toString(
我通过 PHP 使用 Solr 来搜索我网站的各个方面。我正在尝试实现一项功能,但找不到任何有关如何实现它的信息。 我有一组文档(评论),每个文档都与特定产品有关。 我想找到出现在单个产品的多条评论中
我正在从事自然语言生成任务,需要检索与 Cyc 术语等效的自然语言单词或短语。例如。 “#$EatingEvent”->“吃”或“#$Coyote-Animal”->“土狼”。 如何通过 Java A
我在使用 Java 中的以下正则表达式时遇到问题。我删除了双引号,以使其更具可读性。由于缺乏更好的词,我还将每个“组件”放在单独的行上(但实际的表达式会将行合并,行之间没有空格): (?:\bIN(?
我有一个 MySQL 数据库,我正在尝试使用 PHP 获取趋势主题(流行短语或单词)。我尝试了一些查询,但似乎没有什么对我有用。 最佳答案 您可以尝试创建一个包含两列的新表:WORD 和 COUNT,
我在 MySql 中有一个包含城市的表。 |---------------------|------------------| | ID | City
我正在处理搜索页面上的用户输入。如果用户选择“所有单词”类型的搜索,那么我会从搜索文本中删除所有 bool 搜索运算符,并在每个真实单词之间添加 ' AND '。在大多数情况下非常简单。但是,我不知道
我使用的语音识别软件给出的结果不是最佳的。 例如:session 返回为 fashion 或 mission。 现在我有一本像这样的字典: matches = { 'session': ['fas
我厌倦了使用 Gimp 无休止地滚动所有字体来不规律地搜索完美字体,所以我想:“为什么不为每种字体构建一个可视的 pangrams 列表”。 因此,我尝试构建一个 php 脚本,该脚本在 .fonts
如何编写一个 RegEx 模式来测试一个字符串是否包含多个具有以下结构的子字符串: "cake.xxx" xxx 是任何东西,但不是“奶酪”、“牛奶”或“黄油”。 例如: “我有一个 cake.hon
我有一个字段“部门”,它是一个列表:{“部门”:[“餐饮服务”,“软件开发”,“制造”,“部署”]}' 我想聚合“部门”中以“d”开头的元素。即,从所有记录进行部署。 我能够找到包含一个前缀为“d”但
我是一名优秀的程序员,十分优秀!