java - 我如何从java中的字符串中删除阿拉伯标点符号-6ren

java - 我如何从java中的字符串中删除阿拉伯标点符号

转载作者：行者123 更新时间：2023-12-05 00:27:24

25

4

我正在编写一本阿拉伯语词典，我得到的句子是
String original = "'أَبَنَ فُلانًا: عَابَه ورَمَاه بخَلَّة سَوء.'";
从我的数据库中，但我无法在不删除重音和标点符号的情况下处理句子

我试过使用

import java.text.Normalizer;
import java.text.Normalizer.Form;
import java.util.regex.Pattern;

public static String deAccent(String str) {
    String nfdNormalizedString = Normalizer.normalize(str, Normalizer.Form.NFD); 
    Pattern pattern = Pattern.compile("\\p{InCombiningDiacriticalMarks}+");
    return pattern.matcher(nfdNormalizedString).replaceAll("");
}

但它没有用

最佳答案

试试 this code ，它在我的项目上运行良好:

/**
 * ArabicNormalizer class
 * @author Ibrabel <ibrabel@gmail.com>
 */
public final class ArabicNormalizer {

    private String input;
    private final String output;

    /**
     * ArabicNormalizer constructor
     * @param input String
     */
    public ArabicNormalizer(String input){
        this.input=input;
        this.output=normalize();
    }

    /**
     * normalize Method
     * @return String
     */
    private String normalize(){

        //Remove honorific sign
        input=input.replaceAll("\u0610", "");//ARABIC SIGN SALLALLAHOU ALAYHE WA SALLAM
        input=input.replaceAll("\u0611", "");//ARABIC SIGN ALAYHE ASSALLAM
        input=input.replaceAll("\u0612", "");//ARABIC SIGN RAHMATULLAH ALAYHE
        input=input.replaceAll("\u0613", "");//ARABIC SIGN RADI ALLAHOU ANHU
        input=input.replaceAll("\u0614", "");//ARABIC SIGN TAKHALLUS

        //Remove koranic anotation
        input=input.replaceAll("\u0615", "");//ARABIC SMALL HIGH TAH
        input=input.replaceAll("\u0616", "");//ARABIC SMALL HIGH LIGATURE ALEF WITH LAM WITH YEH
        input=input.replaceAll("\u0617", "");//ARABIC SMALL HIGH ZAIN
        input=input.replaceAll("\u0618", "");//ARABIC SMALL FATHA
        input=input.replaceAll("\u0619", "");//ARABIC SMALL DAMMA
        input=input.replaceAll("\u061A", "");//ARABIC SMALL KASRA
        input=input.replaceAll("\u06D6", "");//ARABIC SMALL HIGH LIGATURE SAD WITH LAM WITH ALEF MAKSURA
        input=input.replaceAll("\u06D7", "");//ARABIC SMALL HIGH LIGATURE QAF WITH LAM WITH ALEF MAKSURA
        input=input.replaceAll("\u06D8", "");//ARABIC SMALL HIGH MEEM INITIAL FORM
        input=input.replaceAll("\u06D9", "");//ARABIC SMALL HIGH LAM ALEF
        input=input.replaceAll("\u06DA", "");//ARABIC SMALL HIGH JEEM
        input=input.replaceAll("\u06DB", "");//ARABIC SMALL HIGH THREE DOTS
        input=input.replaceAll("\u06DC", "");//ARABIC SMALL HIGH SEEN
        input=input.replaceAll("\u06DD", "");//ARABIC END OF AYAH
        input=input.replaceAll("\u06DE", "");//ARABIC START OF RUB EL HIZB
        input=input.replaceAll("\u06DF", "");//ARABIC SMALL HIGH ROUNDED ZERO
        input=input.replaceAll("\u06E0", "");//ARABIC SMALL HIGH UPRIGHT RECTANGULAR ZERO
        input=input.replaceAll("\u06E1", "");//ARABIC SMALL HIGH DOTLESS HEAD OF KHAH
        input=input.replaceAll("\u06E2", "");//ARABIC SMALL HIGH MEEM ISOLATED FORM
        input=input.replaceAll("\u06E3", "");//ARABIC SMALL LOW SEEN
        input=input.replaceAll("\u06E4", "");//ARABIC SMALL HIGH MADDA
        input=input.replaceAll("\u06E5", "");//ARABIC SMALL WAW
        input=input.replaceAll("\u06E6", "");//ARABIC SMALL YEH
        input=input.replaceAll("\u06E7", "");//ARABIC SMALL HIGH YEH
        input=input.replaceAll("\u06E8", "");//ARABIC SMALL HIGH NOON
        input=input.replaceAll("\u06E9", "");//ARABIC PLACE OF SAJDAH
        input=input.replaceAll("\u06EA", "");//ARABIC EMPTY CENTRE LOW STOP
        input=input.replaceAll("\u06EB", "");//ARABIC EMPTY CENTRE HIGH STOP
        input=input.replaceAll("\u06EC", "");//ARABIC ROUNDED HIGH STOP WITH FILLED CENTRE
        input=input.replaceAll("\u06ED", "");//ARABIC SMALL LOW MEEM

        //Remove tatweel
        input=input.replaceAll("\u0640", "");

        //Remove tashkeel
        input=input.replaceAll("\u064B", "");//ARABIC FATHATAN
        input=input.replaceAll("\u064C", "");//ARABIC DAMMATAN
        input=input.replaceAll("\u064D", "");//ARABIC KASRATAN
        input=input.replaceAll("\u064E", "");//ARABIC FATHA
        input=input.replaceAll("\u064F", "");//ARABIC DAMMA
        input=input.replaceAll("\u0650", "");//ARABIC KASRA
        input=input.replaceAll("\u0651", "");//ARABIC SHADDA
        input=input.replaceAll("\u0652", "");//ARABIC SUKUN
        input=input.replaceAll("\u0653", "");//ARABIC MADDAH ABOVE
        input=input.replaceAll("\u0654", "");//ARABIC HAMZA ABOVE
        input=input.replaceAll("\u0655", "");//ARABIC HAMZA BELOW
        input=input.replaceAll("\u0656", "");//ARABIC SUBSCRIPT ALEF
        input=input.replaceAll("\u0657", "");//ARABIC INVERTED DAMMA
        input=input.replaceAll("\u0658", "");//ARABIC MARK NOON GHUNNA
        input=input.replaceAll("\u0659", "");//ARABIC ZWARAKAY
        input=input.replaceAll("\u065A", "");//ARABIC VOWEL SIGN SMALL V ABOVE
        input=input.replaceAll("\u065B", "");//ARABIC VOWEL SIGN INVERTED SMALL V ABOVE
        input=input.replaceAll("\u065C", "");//ARABIC VOWEL SIGN DOT BELOW
        input=input.replaceAll("\u065D", "");//ARABIC REVERSED DAMMA
        input=input.replaceAll("\u065E", "");//ARABIC FATHA WITH TWO DOTS
        input=input.replaceAll("\u065F", "");//ARABIC WAVY HAMZA BELOW
        input=input.replaceAll("\u0670", "");//ARABIC LETTER SUPERSCRIPT ALEF

        return input;
    }

    /**
     * @return the output
     */
    public String getOutput() {
        return output;
    }

    public static void main(String[] args) {
        String test = "كَلَّا لَا تُطِعْهُ وَاسْجُدْ وَاقْتَرِبْ ۩";
        System.out.println("Before: "+test);
        test=new ArabicNormalizer(test).getOutput();
        System.out.println("After: "+test);
    }
}

关于java - 我如何从java中的字符串中删除阿拉伯标点符号，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18580287/

25

4

0

文章推荐： sql - 查看 SQL - 减去日期

文章推荐： asynchronous - 在 Meteor.call 回调中对 sys.exec 的 Meteor 回调

文章推荐： debugging - 为什么prolog进入无限循环？

文章推荐： svn - 使用持续集成将第三方库存储到源代码管理中

python - 每次有标点符号时将字符串拆分成句子，标点符号？
我想将字符串拆分为列表中的单独句子。例子: string = "Hey! How are you today? I am fine." 输出应该是: ["Hey!", "How are you to
java - 从字符串中删除所有非单词字符(标点符号)
好吧，这是我第一次发帖，所以如果我有任何错误，请多多包涵。长话短说，我得到了一个字符串数组，我的目标是计算字符串的唯一单词数并从数组中删除所有标点符号。 public static HashMap u
f# - 如何在可区分的联合中使用符号/标点符号
我正在尝试为自然语言解析器返回的词性标签和其他标签创建可区分的联合。在 C#/Java 中通常使用字符串或枚举来表示它们，但在 F# 中似乎更适合区分联合，因为它们是不同的只读值。在语言引用中，我
arrays - 如何修复此代码，使其随机排列字母并且不影响第一个字母和最后一个字母、标点符号
我正在处理 go/golang，尝试编写需要字符串和种子的代码。它应该返回一个打乱的字符串，其中单词中的第一个和最后一个字母、标点符号和数字保持不变。示例: my name is Nikki. My
java - 正则表达式 Java(标点符号)
这个问题在这里已经有了答案: How can I use "." as the delimiter with String.split() in java [duplicate] (8 个答案) 关
MYSQL，忽略空格，标点符号，替换查询中的重音符号
我需要一种方法来使用包含省份缩写、全名和地区的词典，而不必为安大略省的每个可能的拼写错误添加条目。表如下: state |name | territory ============
C++ 字符串、标点符号、数组
我需要能够仅使用 C++ 字符串才能更改下面的输入段落。我遇到的问题是，当我在末尾拉出带有标点符号的东西时，例如“programs-”，它会将它作为“programs-”拉入我的数组，而不是分别将“p
python - 删除停用词/标点符号，标记并应用 Counter()
我编写了一个函数来删除停用词和标记化，如下所示: def process(text, tokenizer=TweetTokenizer(), stopwords=[]): text =
r - 如何处理非标准列名(空格、标点符号、数字开头)
df <- structure(list(`a a` = 1:3, `a b` = 2:4), .Names = c("a a", "a b" ), row.names = c(NA, -3L), c
javascript - 回文程序避免 Javascript 中的空格、标点符号
我正在尝试使用javascript制作一个回文程序，即使字符串有标点符号和空格，它也会通过TRUE或FALSE显示字符串是否是回文(前女士，我是亚当)。但每次我输入一个字符串时，无论字符串是什么，我都
python - 根据异常(exception)列表删除选择性连字符/标点符号
删除选择性连字符 import pandas as pd s = pd.Series(['do not-remove this-hyphen but remove-all of these-hyphe
mysql - 在 Perl 中解析表单数据以删除所有非字母数字/标点符号
在 Web 表单条目中，我们看到使用了奇怪的字符，例如: '(windows 1252 编码) 或 ðŸ'•(表情符号) 或 |(不知道，但认为它是 windows 1252) 对于其中一些，我可以使
java - 从字符串中过滤掉 UTF-8 标点符号
从字符串中过滤掉所有 UTF-8 标点字符和符号(如✀✁✂✃✄✅✆✇✈等)的最佳和最有效方法是什么。简单地过滤掉所有不在 a-z、A-Z 和 0-9 中的字符不是一种选择，因为我想保留来自其他语言的字
ruby - Ruby 中的正则表达式捕获 Unicode 标点符号？
Ruby 中是否有识别 Unicode 标点符号(例如，",-)的正则表达式？最佳答案你可以使用这个: /[[:punct:]]/ 有关更多信息，请查看 Regexp class .您也可以在此
unicode - 使用 LPeg 匹配 Unicode 标点符号
我正在尝试创建一个 LPeg 模式，该模式将匹配 UTF-8 编码输入中的任何 Unicode 标点符号。我想出了以下 Selene Unicode 和 LPeg 的结合: local unicode
python - 删除 Python URL 列表末尾的特殊字符/标点符号
我正在编写一个Python代码来从输入文件中提取所有URL，其中包含来自Twitter(推文)的内容或文本。然而，在这样做时，我意识到在 python 列表中提取的几个 URL 在末尾有“特殊字符”或
emacs - read-minibuffer 函数输入字符串，带有“标点符号
我写emacs lisp代码如下: #!/usr/bin/emacs --script (setq input (read-minibuffer "please input your name:")
c++ - 我如何从用户而不是示例中获取输入字符串，然后计算空格、标点符号、数字和字母。 C++
这是我的代码。用户将提供输入(任何字符串)而不是“这是一个测试。1 2 3 4 5”。然后它将显示空格数、标点符号、数字和字母作为输出字符串。 #include #include using n
objective-c - NSString - 仅转换为纯字母表(即删除重音符号+标点符号)
我正在尝试比较没有任何标点符号、空格、重音符号等的名称。目前我正在做以下事情: -(NSString*) prepareString:(NSString*)a { //remove any a
html - 我如何/应该在 YAML 文件中声明冒号(标点符号)？
我正在使用 Ruby on Rails 3.1.0，我想知道如何在 YAML 文件中正确声明冒号(标点符号)。我试图通过在我的 config/locales/defaults/en.yml 文件中添

首页

博学

6Ren·AI

商城

java - 我如何从java中的字符串中删除阿拉伯标点符号