gpt4 book ai didi

elasticsearch - 在 Elasticsearch 中合并 token 过滤器

转载 作者:行者123 更新时间:2023-11-29 02:56:15 25 4
gpt4 key购买 nike

我试图在阻止它们并应用其他过滤器之后对一些标签编制索引。这些标签可以由多个词组成。

不过,我没能做到的是应用最终 token 过滤器,该过滤器从 token 流中输出单个 token 。

所以我希望由多个单词组成的标签被词干化,删除停用词,然后在保存在索引中之前再次加入相同的标记(有点像关键字标记器所做的,但作为过滤器)。

我发现无法通过在 Elasticsearch 中应用 token 过滤器的方式来执行此操作:如果我对空格进行 token 化,然后进行词干处理,所有后续的 token 过滤器都会收到这些词干化的单个 token ,而不是整个 token 流,对吧?

例如我想要标签

the fox jumps over the fence

作为一个整体记号保存在索引中

fox jump over fence

不是

fox,jump,over,fence

如果不在我的应用程序中预处理字符串然后将其索引为 not_analyzed 字段,有什么方法可以做到这一点?

最佳答案

经过一些研究,我发现了这个线程:

http://elasticsearch-users.115913.n3.nabble.com/Is-there-a-concatenation-filter-td3711094.html

它有我正在寻找的确切解决方案。

我创建了一个简单的 Elasticsearch 插件,它只提供 Concatenate Token Filter,您可以在以下位置找到它:

https://github.com/francesconero/elasticsearch-concatenate-token-filter

关于elasticsearch - 在 Elasticsearch 中合并 token 过滤器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31221085/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com