gpt4 book ai didi

java - 将原始输入字符串保留为 CustomAnalyzer 中的标记/术语

转载 作者:太空宇宙 更新时间:2023-11-04 11:16:46 27 4
gpt4 key购买 nike

我正在使用 apache lucene 6.3.0,我正在尝试为我的索引实现一个自定义分析器,该分析器允许搜索文件名。问题是我想允许用户也使用确切的文件名进行搜索,但分析器只有单独的标记,而不是原始文件名作为标记之一。

Analyzer analyzer = CustomAnalyzer.builder()
.withTokenizer(StandardTokenizerFactory.class)
.addTokenFilter(LowerCaseFilterFactory.class)
.addTokenFilter(WordDelimiterFilterFactory.class)
.build();

输入:- power_shot_black_neo.txt

预期输出:-
power_shot_black_neo.txt
功率
射击
黑色

.txt

实际输出:-
功率
射击
黑色

.txt

最佳答案

您需要在“标记器”之前使用“字符过滤器”来获取完整的字符串,因为标记器仅考虑标记和字符过滤器 --> 字符过滤器用于在标记化之前“整理”字符串。

更多详情请引用以下网址:

https://www.elastic.co/guide/en/elasticsearch/guide/current/custom-analyzers.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-custom-analyzer.html

关于java - 将原始输入字符串保留为 CustomAnalyzer 中的标记/术语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45385748/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com