gpt4 book ai didi

java - 如何配置索引器以便将 "word1.word2"视为两个单词

转载 作者:行者123 更新时间:2023-12-01 15:54:22 24 4
gpt4 key购买 nike

假设一个文件'test.txt'被索引,文件的内容是:

word1.word2

我应该怎么做才能让lucene将“word1.word2”视为两个单词“word1”和“word2”而不是“word1.word2”

最佳答案

使用分析器进行 Lucene 索引会将您的单词转换为术语标记(从技术上讲,它将单词转换为形成文档的字段)

基本上可以

1) 创建一个 StopAnalyzer 并传递一个 HashSet,其中停用词为 "."(句点) 这可能会对索引产生不利影响(自 you must use same analyzer while searching and indexing 起)

2) 拆分 .用空格并索引它们

关于java - 如何配置索引器以便将 "word1.word2"视为两个单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5377600/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com