gpt4 book ai didi

java - 一个词是否由土耳其语字符(可能带有数字)组成?

转载 作者:行者123 更新时间:2023-11-30 11:21:35 32 4
gpt4 key购买 nike

我有一个包含单词的语料库。我想对他们做一个分析。我接受它们是土耳其字符,但其中一些不是。所以我想检查一个词是否不包含土耳其字符或数字。我的意思是:

hey4    valid
33 valid
kırp valid
vxz invalid
ğşiüçö valid
xwq invalid

如何快速检查(是否使用正则表达式)。我有数百万个标记,我想删除其中一些我知道它们不是土耳其语的标记,因为它们包含非土耳其语字符。

最佳答案

看来你可以寻找类似的东西

String[] data = {
"hey4", // valid
"33", // valid
"kırp", // valid
"vxz", // invalid
"ğşiüçö",// valid
"xwq", // invalid
};
Pattern p = Pattern.compile("[abcçdefgğhıijklmnoöprsştuüvyz\\d]+",
Pattern.CASE_INSENSITIVE);
// just in case shorter version of regex "[0-9a-pr-yzçğıöşü]+"
for (String s : data)
System.out.println(s + "\t > " + p.matcher(s).matches());

输出:

hey4    > true
33 > true
kırp > true
vxz > false
ğşiüçö > true
xwq > false

关于java - 一个词是否由土耳其语字符(可能带有数字)组成?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22174797/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com