gpt4 book ai didi

regex - 删除第一次出现的重复行

转载 作者:行者123 更新时间:2023-12-01 06:27:34 25 4
gpt4 key购买 nike

此模式(带有 mis 标志打开)保留最后一次出现的重复行

^(\w+)\R(?=.*?^\1$)

像这样 example
如何保留第一次出现而不是仅使用正则表达式
例子
Apple
Banana
TEST
apple
Cherry
banana
bananA
Var
cherry
applE
cherrY

结果 :
Apple
Banana
TEST
Cherry
Var

这里的重点是保持条目的原始顺序并删除重复项。

最佳答案

这对于单个正则表达式或 s/// 正则表达式替换是不可能的,除非解释器支持动态宽度后视。

我将在 vim 中解决这个问题,它的正则表达式解释器实际上支持动态回溯,但它真的很笨拙,所以我将首先重新创建删除第一实例变体(问题中的 ^(\w+)\R(?=.*?^\1$))。
:%s/^\(\w\+\)\n\ze\%(^\w\+\n\)*\1$//ig vim 命令( : )将,对于所有行( % ),使用替代( s/…//ig )删除不区分大小写的正则表达式的全局匹配,其中行开头为( 0x10457 14 个字的4)(x10457914)14个字符捕获^ ) 后跟一个换行符 ( \(…\) )。匹配的其余部分是零宽度前瞻(\w\+ 表示“零宽度结束”,而 \n 类似于 PCRE 正则表达式末尾的 \ze)。然后,在匹配原始捕获( \zs… )之前,我们跳过零个或多个非捕获组( (?=…) )在它们自己的行上包含单词。由于 \%(…\)* ,当我们删除第一个实例时,该部分不会被删除,留下:

TEST
bananA
Var
applE
cherrY

(我讨厌写 vimscript 和 vim 正则表达式。我真的不知道你是如何在这里说服我的......)

这是一个有点可接受的解决方案。 (我这么说是因为 \1 不够全局。)
\ze 使用与之前的 delete-first-instance 命令非常相似的组合。我已将 /g 更改为 :%s/^\(\w\+\)\n\%(\w\+\n\)*\zs\1\n//ig (“零宽度开始”,如 PCRE \ze )。这实际上是一个可变宽度的后视。 (是的,理论上我可以用 vim 的 \zs 让它看起来更像 \K,但那更丑,我无法让它工作。)那个“跳过”组被移动到零宽度一侧。

尽管具有零宽度性质,但每次替换都需要运行一次(在这种情况下为 4x)。我相信这是因为匹配是在最终实例上设置的,所以每次替换都必须消耗空间直到最终匹配(这个正则表达式是贪婪的)然后向后退步,但是在第一次替换之后,它不知道要迭代倒退到下一个捕获。

四次运行后,您将获得:

Apple
Banana
TEST
Cherry
Var


(是的,这是一个悄悄进入的尾随空行。这可能是在同一操作中同时删除 (?<=…)\%(…\)\@<= 的人工制品。)

这是使用 Javascript 的更实用的解决方案,使用正则表达式完成尽可能多的工作:

test = "Apple\nBanana\nTEST\napple\nCherry\nbanana\nbananA\nVar\ncherry\ncherrY\n";
while ( test != ( test = test.replace(/^(\w+\n)((?:\w+\n)*)\1/mig, "$1$2") ) ) 1;

所有的逻辑都存在于 apple 循环的条件中,它基本上是通过将替换之前的字符串( cherrY )与替换之后的字符串进行比较来表示“执行此替换并循环直到它什么都不做”。循环意味着我们不必处理零宽度,因为我们在每次迭代时都重新开始(否则正则表达式会从它停止的地方恢复,因此需要零宽度)。

正则表达式本身只是在自己的行( while )上捕获一个单词,然后匹配零个或多个其他单词( != ),然后再次匹配捕获的单词( ^(\w+\n) )。
((?:\w+\n)*) 循环的主体是空的( \1 是空操作),因为条件包含所有逻辑。当给出单个命令时,Javascript 不需要大括号,但这更正式的是 while
这循环了四次(您可以通过在循环前设置 1 并将循环内的 while ( test != ( test = test.replace(…) ) ) { true; } 更改为 i=0 来计数),然后将 1 保留为:

Apple
Banana
TEST
Cherry
Var

关于regex - 删除第一次出现的重复行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26457407/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com