gpt4 book ai didi

regex - 连续重复二元组的正则表达式

转载 作者:行者123 更新时间:2023-12-04 18:33:25 26 4
gpt4 key购买 nike

我的问题是早期 question 的直接扩展关于检测字符串中的连续单词(unigrams)。

在上一个问题中,

Not that that is related



可以通过这个正则表达式检测到: \b(\w+)\s+\1\b
在这里,我想检测连续的二元组(单词对):

are blue and then and then very bright



理想情况下,我也想知道如何将检测到的模式(重复)替换为单个元素,从而最终获得:

are blue and then very bright



(对于这个应用程序,如果重要的话,我在 R 中使用 gsub)

最佳答案

尝试以下正则表达式:

(\b.+?\b)\1\b

RegEx 将捕获一个字边界,然后是数据,然后是另一个字边界。 \1将引用捕获的内容,然后再次选择。然后它会在结尾处检查单词边界以防止 a andz zoo从被选中

至于更换,使用 \1 .这将包含来自 的数据。 1st捕获组 (二元组的第一部分),第一部分将用于替换整个内容。

Live Demo on Regex101

关于regex - 连续重复二元组的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36748168/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com