gpt4 book ai didi

java - 断词规则文件

转载 作者:行者123 更新时间:2023-12-02 08:38:28 25 4
gpt4 key购买 nike

IBM 显然已经开源了 ICU 源代码以支持 Unicode 和全局化,其中一部分是文本边界定位器,用于检测文本中的中断位置。

但是,中断检测的内容依赖于规则,我无法在任何地方找到规则文件。

在哪里可以获得 com.ibm.icu.text.BreakIteratorcom.ibm.icu.text.RuleBasedBreakIterator 的分词规则文本文件?

最佳答案

http://www.icu-project.org/拥有 IBM 在开源许可下发布的 icu4j 的所有源代码。这包括边界分析内容,例如基于字典和基于规则的中断迭代器。

但是,似乎没有适合阅读的文本文件。我不确定 IBM 是否会将他们的规则集作为开源发布(因为这对他们来说是一个相当大的技术优势)。相反,我们的想法是创建您自己的规则集,其教程是 here .

同一个教程指出,您可以通过运行转储默认规则:

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();

关于java - 断词规则文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/559949/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com