gpt4 book ai didi

java - 从字符串中过滤掉 UTF-8 标点符号

转载 作者:搜寻专家 更新时间:2023-11-01 01:53:53 30 4
gpt4 key购买 nike

从字符串中过滤掉所有 UTF-8 标点字符和符号(如✀✁✂✃✄✅✆✇✈等)的最佳和最有效方法是什么。简单地过滤掉所有不在 a-z、A-Z 和 0-9 中的字符不是一种选择,因为我想保留来自其他语言的字母(ą、ę、ó 等)提前致谢。

最佳答案

您可以使用 \p{L} 来匹配所有 unicode 字母。示例:

public static void main(String[] args) throws IOException {
String[] test = {"asdEWR1", "ąęóöòæûùÜ", "sd,", "✀","✁","✂","✃","✄","✅","✆","✇","✈"};
for (String s : test)
System.out.println(s + " => " + s.replaceAll("[^\\p{L}^\\d]", ""));
}

输出:

asdEWR1 => asdEWR1
ąęóöòæûùÜ => ąęóöòæûùÜ
sd, => sd
✀ =>
✁ =>
✂ =>
✃ =>
✄ =>
✅ =>
✆ =>
✇ =>
✈ =>

关于java - 从字符串中过滤掉 UTF-8 标点符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16526941/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com