gpt4 book ai didi

regex - 在代码块中查找字符串(正则表达式)

转载 作者:太空宇宙 更新时间:2023-11-04 11:30:55 32 4
gpt4 key购买 nike

我需要在代码块(当然可以包含换行符)中找到包含字符串的文件的名称,或者更具体地说:构造函数中的某些方法调用(我们称它为 methodName )。我需要查看当前目录及其子目录中的所有 java 代码文件。

可能的匹配是:

public myClass() {
a(1);
b();
myMethod("abc");
c(5);
}

这是我到目前为止想出的表达方式:

find . -name *.java | xargs nawk '{print $0 "~("FILENAME")"}' | tr -d "\n" | grep -s -i -o 'public \w\+([^)]*).*methodName([^~]*~([^)]*)'

所以...
- *.java 文件以递归方式找到
- 每行都被打印出来,旁边是它所属的文件名(只是为了跟踪找到它的位置)
-\n 被删除以便能够在 block 中使用 grep
- 然后查找 methodName

问题是每次我需要使用 .* 时,我都必须将表达式更改为对下一个表达式的否定,然后再对下一个表达式进行否定。例如:如果我需要 .*\~ , 我需要做 ([^~]*~ ... 那不好,但我可以忍受。问题来自 methodName,因为否定该字符串会更痛苦。

有什么想法吗?可以用正则表达式来完成吗?

最佳答案

你正在与贪婪作斗争。 .* 默认是贪婪的,所以它会尽可能多地消耗,成为一切。只有在它消耗完所有内容后,它才会尝试匹配表达式的下一部分 m 并回溯直到它匹配。如果它确实找到了模式的其余部分,它将匹配从 .* ('public\w+([^)]*)') 前面的模式第一次出现到最后一次出现的所有内容.* (methodName([^~]*~([^)]*)) 背后模式的出现。

解决方案是使 .* 变得惰性:.*?,为您提供完整的表达式 public\w\+([^)]* ).*?methodName([^~]*~([^)]*)

有趣的是,在您使用它的情况下,您使用否定字符类的解决方法是首选解决方案,但是,是的,使用 methodName 做类似的事情可能会变得有点笨拙。

参见:Laziness Instead of Greediness

关于regex - 在代码块中查找字符串(正则表达式),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11369590/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com