gpt4 book ai didi

stemming - 是否有克罗地亚语词干算法的实现?

转载 作者:行者123 更新时间:2023-12-02 19:31:15 24 4
gpt4 key购买 nike

我正在寻找克罗地亚语词干算法的实现。理想情况下使用 Java,但我也接受任何其他语言。

是否有一个讲英语的开发人员社区正在为克罗地亚语开发搜索应用程序?

谢谢

最佳答案

斯拉夫语言高度inflective 。最准确和快速的方法是规则和大型映射/字典的组合。

工作已经完成,但被推迟了。 The Croatian morphological lexicon会有所帮助,但它背后的 API 很慢。波斯尼亚语、塞尔维亚语和克罗地亚语之间可以找到更多的工作,而不仅仅是克罗地亚语。

大型映射并不总是方便(并且可以从映射/字典/语料库有效地构建更好的规则转换器)。

使用 Hunspell 和 Affix 文件实现可能是获得社区和 Java 支持的好方法。例如。 Google search: hr_hr.aff

未测试:应该能够反转所有单词、构建结尾字符的字典树、使用某些规则(例如 LCS)进行遍历并使用语料库文本构建准确的统计转换器。

我能做的最好的就是一些Python:

import hunspell
hs = hunspell.HunSpell(
'/usr/share/myspell/hr_HR.dic',
'/usr/share/myspell/hr_HR.aff')

# The following should return ['hrvatska']:
print hs.stem('hrvatski')

关于stemming - 是否有克罗地亚语词干算法的实现?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6501877/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com