gpt4 book ai didi

java - 使用正则表达式在字符串中搜索子字符串

转载 作者:行者123 更新时间:2023-12-01 16:44:02 26 4
gpt4 key购买 nike

我正在尝试搜索包含在字符串内 ArrayList(terms_1pers) 中的一组单词,并且由于前提条件是搜索单词之前和之后不应该有字母,我想到使用正则表达式。

我只是不知道我使用匹配运算符做错了什么。在报告的代码中,如果未验证匹配,则会写入外部文件。

String url = csvRecord.get("url");
String text = csvRecord.get("review");
String var = null;
for(String term : terms_1pers)
{
if(!text.matches("[^a-z]"+term+"[^a-z]"))
{
var="true";
}
}
if(!var.equals("true"))
{
bw.write(url+";"+text+"\n");
}

最佳答案

为了查找正则表达式匹配,您应该使用正则表达式类。模式和匹配器。

String term = "term";
ArrayList<String> a = new ArrayList<String>();
a.add("123term456"); //true
a.add("A123Term5"); //false
a.add("term456"); //true
a.add("123term"); //true
Pattern p = Pattern.compile("^[^A-Za-z]*(" + term + ")[^A-Za-z]*$");
for(String text : a) {
Matcher m = p.matcher(text);
if (m.find()) {
System.out.println("Found: " + m.group(1) );
//since the term you are adding is the second matchable portion, you're looking for group(1)
}
else System.out.println("No match for: " + term);
}

}

在该示例中,我们创建了一个 https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html 实例来查找您要匹配的文本中的匹配项。

请注意,我稍微调整了正则表达式。此代码中的选择从初始匹配部分中排除所有字母 A-Z 和小写版本。它还允许匹配项之前或之后根本没有字符的情况。如果您需要在那里添加某些内容,请使用 + 而不是 *。我还通过使用 ^$ 验证匹配文本的结尾来限制正则表达式,以强制匹配仅包含这三个组的匹配项。如果这不适合您的用例,您可能需要进行调整。

演示如何使用各种不同的术语:

ArrayList<String> terms = new ArrayList<String>();
terms.add("term");
terms.add("the book is on the table");
terms.add("1981 was the best year ever!");
ArrayList<String> a = new ArrayList<String>();
a.add("123term456");
a.add("A123Term5");
a.add("the book is on the table456");
a.add("1@#!231981 was the best year ever!9#");
for (String term: terms) {

Pattern p = Pattern.compile("^[^A-Za-z]*(" + term + ")[^A-Za-z]*$");

for(String text : a) {

Matcher m = p.matcher(text);
if (m.find()) {
System.out.println("Found: " + m.group(1) + " in " + text);
//since the term you are adding is the second matchable portion, you're looking for group(1)
}
else System.out.println("No match for: " + term + " in " + text);
}
}

输出为:找到:123term456 中的术语不匹配:A123Term5 中的术语不匹配:书中的术语在表上456....

为了回答有关字符串术语不区分大小写的问题,我们可以通过利用 java.lang.Character 来选择大小写字母来构建字符串。

String term = "This iS the teRm.";
String matchText = "123This is the term.";
StringBuilder str = new StringBuilder();
str.append("^[^A-Za-z]*(");
for (int i = 0; i < term.length(); i++) {
char c = term.charAt(i);
if (Character.isLetter(c))
str.append("(" + Character.toLowerCase(c) + "|" + Character.toUpperCase(c) + ")");
else str.append(c);
}
str.append(")[^A-Za-z]*$");

System.out.println(str.toString());


Pattern p = Pattern.compile(str.toString());
Matcher m = p.matcher(matchText);
if (m.find()) System.out.println("Found!");
else System.out.println("Not Found!");

此代码输出两行,第一行是在模式中编译的正则表达式字符串。 "^[^A-Za-z]*((t|T)(h|H)(i|I)(s|S) (i|I)(s|S) (t|T) (h|H)(e|E) (t|T)(e|E)(r|R)(m|M).)[^A-Za-z]*$" 这个调整后的正则表达式允许匹配术语中的字母,无论大小写。第二个输出行是“Found!”因为混合大小写的术语是在 matchText 中找到的。

关于java - 使用正则表达式在字符串中搜索子字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56407610/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com