gpt4 book ai didi

java - 如何扩展 Lucene 的 StandardAnalyzer 以进行自定义特殊字符处理?

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:36:11 27 4
gpt4 key购买 nike

我将 Lucene 的 StandardAnalyzer 用于特定的索引属性。由于像 àéèäöü 这样的特殊字符没有按预期编入索引,我想替换这些字符:

  • à -> a
  • é -> e
  • è -> e
  • ä -> ae
  • ö -> oe
  • ü -> ue

扩展 org.apache.lucene.analysis.standard.StandardAnalyzer 类的最佳方法是什么?

我一直在寻找一种方法,让标准解析器遍历所有标记(单词),然后我可以逐字检索并在那里施展魔法。

感谢任何提示。

最佳答案

我会建议使用 MappingCharFilter,这将允许有一个将被字符串替换的字符串映射,因此它完全符合您的要求。

一些附加信息 - https://lucene.apache.org/core/6_0_0/analyzers-common/org/apache/lucene/analysis/charfilter/MappingCharFilter.html

关于java - 如何扩展 Lucene 的 StandardAnalyzer 以进行自定义特殊字符处理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42005525/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com