gpt4 book ai didi

java - 韩文字符的排序和分组(不熟悉韩文)

转载 作者:行者123 更新时间:2023-11-30 08:08:52 29 4
gpt4 key购买 nike

我正在尝试在 Java 中对韩语字符进行排序和分组。

目前我将使用排序

final Collator collator = Collator.getInstance(Locale.KOREA);
Collections.sort(words, collator);

但是,我很难将它们分为元音组(ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎ)

最佳答案

这应该不会太困难,尽管我不确定以前是否已经这样做过。

您要做的就是获取第一个 Unicode 字母。在 Unicode 中,所有朝鲜文字母都是按照这个公式组成的,维基百科http://en.wikipedia.org/wiki/Korean_language_and_computers#Example对此有很好的描述。

因此您可以使用公式对其进行解构:

(int)((54620 - 44032) / 588)

并使用维基百科文章中提到的 key ,您可以执行类似的操作(我使用 Groovy,因为它更简单,但我确信您可以将其改编为 Java)

def words = ['곰', '세', '마리','가', '한', '집에', '있어', '아빠', '곰', '엄마', '곰', '애기', '곰'], 
result = [('ㄱ'):[],
('ㄲ'):[],
('ㄴ'):[],
('ㄷ'):[],
('ㄸ'):[],
('ㄹ'):[],
('ㅁ'):[],
('ㅂ'):[],
('ㅃ'):[],
('ㅅ'):[],
('ㅆ'):[],
('ㅇ'):[],
('ㅈ'):[],
('ㅉ'):[],
('ㅊ'):[],
('ㅋ'):[],
('ㅌ'):[],
('ㅍ'):[],
('ㅎ'):[]], matrix = [(0):'ㄱ',
(1):'ㄲ',
(2):'ㄴ',
(3):'ㄷ',
(4):'ㄸ',
(5):'ㄹ',
(6):'ㅁ',
(7):'ㅂ',
(8):'ㅃ',
(9):'ㅅ',
(10):'ㅆ',
(11):'ㅇ',
(12):'ㅈ',
(13):'ㅉ',
(14):'ㅊ',
(15):'ㅋ',
(16):'ㅌ',
(17):'ㅍ',
(18):'ㅎ']

for (word in words) {
def offset = (int)((word.charAt(0) - 44032) / 588)
def firstJamo = matrix[offset]
result[firstJamo] << word
}

result

要查看此代码的实际效果,请参阅 https://groovyconsole.appspot.com/script/5767123439714304 .

关于java - 韩文字符的排序和分组(不熟悉韩文),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30702699/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com