gpt4 book ai didi

java - `lucene 5.0.0` 的 SmartChineseAnalyzer 可以指定或添加我的自定义词典吗?

转载 作者:行者123 更新时间:2023-11-30 11:05:32 25 4
gpt4 key购买 nike

lucene的cnsmart中文分析器性能不错。
但是,在特定领域,我需要扩展它的字典。
请问cnsmart是否支持添加自定义词典或替换现有词典?

最佳答案

SmartChineseAnalyzer 仍处于实验阶段,我没有找到指定在何处提取自定义词典的好方法。它有一些 Hook ,如果您查看 AnalyzerProfile看起来您应该能够通过“analysis.data.xml”加载自定义词典。目录”系统属性。来自来源:

// Try the system property:-Danalysis.data.dir=/path/to/analysis-data
ANALYSIS_DATA_DIR = System.getProperty("analysis.data.dir", "");

但是,查看 WordDictionary 源代码,看起来它(仍然)仅在嵌入词典加载失败时才加载。由于它嵌入在 jar 中,因此通常不会出现故障。

考虑到所有这些,使用您自己的字典的最简单方法可能是获取 lucene-analyzers-smartcn-5.0.0.jar,解压它,替换 org/apache/lucene/analysis/cn/smart/hhmm/coredict.mem 用你的字典,然后重建 jar。

参见 LUCENE-1817 : it is impossible to use a custom dictionary for SmartChineseAnalyzer对此进行一些讨论。相当旧,但再次查看源代码,看起来那里所说的一切仍然适用。

所有这些都假设您的字典采用分析器可读的格式。在 jar 中有一个 bigramdict.memcoredict.mem,大概是一个扩展字典,由于性能问题而不是标准使用,所以这可能也值得尝试。

关于java - `lucene 5.0.0` 的 SmartChineseAnalyzer 可以指定或添加我的自定义词典吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29618789/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com