作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找克罗地亚语词干算法的实现。理想情况下使用 Java,但我也接受任何其他语言。
是否有一个讲英语的开发人员社区正在为克罗地亚语开发搜索应用程序?
谢谢
最佳答案
斯拉夫语言高度inflective 。最准确和快速的方法是规则和大型映射/字典的组合。
工作已经完成,但被推迟了。 The Croatian morphological lexicon会有所帮助,但它背后的 API 很慢。波斯尼亚语、塞尔维亚语和克罗地亚语之间可以找到更多的工作,而不仅仅是克罗地亚语。
大型映射并不总是方便(并且可以从映射/字典/语料库有效地构建更好的规则转换器)。
使用 Hunspell 和 Affix 文件实现可能是获得社区和 Java 支持的好方法。例如。 Google search: hr_hr.aff
未测试:应该能够反转所有单词、构建结尾字符的字典树、使用某些规则(例如 LCS)进行遍历并使用语料库文本构建准确的统计转换器。
我能做的最好的就是一些Python:
import hunspell
hs = hunspell.HunSpell(
'/usr/share/myspell/hr_HR.dic',
'/usr/share/myspell/hr_HR.aff')
# The following should return ['hrvatska']:
print hs.stem('hrvatski')
关于stemming - 是否有克罗地亚语词干算法的实现?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6501877/
我是一名优秀的程序员,十分优秀!