gpt4 book ai didi

solr - 多字同义词和奇数 token 顺序

转载 作者:行者123 更新时间:2023-12-03 02:09:00 24 4
gpt4 key购买 nike

为什么synonymTokenFilter将扩展词放在多词同义词中第一个标记的匹配之后?当我使用Elasticsearch时,这当然也适用于那里的任何Solr / Lucene专家。我仅在索引时间应用此功能,但是它与带状疱疹一起使用,因此顺序非常重要。

我有一个同义词:

爆米花机

我的synonymTokenFilter通过elasticsearch中的默认值具有expand = true。

当我查看 token 时,无论输入术语是爆米花爆米花机还是爆米花机,爆米花机总是插入在爆米花和爆米花之间。

分析“爆米花爆米花”的示例

 t1:Popcorn t2:popcorn t3:machine t4:popper

分析“爆米花机”的示例
  t1:Popcorn t2:popcorn t3:machine t4:popper

最佳答案

Lucene token 流is actually a graph。诸如同义词之类的事情确实会导致该图模型和 token 偏移量出现问题。但是,新的Lucene版本中的情况正在改善。您可能只需要查看(Solr和Lucene)Jiras即可找到相关的讨论。

关于solr - 多字同义词和奇数 token 顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19128378/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com