gpt4 book ai didi

elasticsearch - elasticsearch:是否可以使用模式标记器发出重叠的标记?

转载 作者:行者123 更新时间:2023-12-02 23:03:14 27 4
gpt4 key购买 nike

与elasticsearch一起使用时,我想设置一个分析器,以在给定输入字符串的情况下发出重叠的 token ,有点像边缘Ngrams token 生成器。
给定输入

a/b/c

我希望分析器产生 token
a a/b a/b/c

我使用以下设置尝试了模式标记器:
settings: {
analysis: {
tokenizer: {
"my_tokenizer": {
"type": "pattern",
"pattern": "^(.*)(/|$)",
"group": 1
}
...

但是,它不会输出所有匹配的序列,并且因为它是贪婪的,所以只会输出
a/b/c

有什么办法可以与内置标记器/过滤器/分析器的另一种组合一起使用?

最佳答案

根据您的值格式,您可以使用path hierarchy标记程序。

尝试使用analytics API:

GET _analyze?tokenizer=path_hierarchy&text=a/b/c

输出非常接近您想要的:
{
"tokens": [
{
"token": "a",
"start_offset": 0,
"end_offset": 1,
"type": "word",
"position": 1
},
{
"token": "a/b",
"start_offset": 0,
"end_offset": 3,
"type": "word",
"position": 1
},
{
"token": "a/b/c",
"start_offset": 0,
"end_offset": 5,
"type": "word",
"position": 1
}
]
}

试试看,让我们知道:)

关于elasticsearch - elasticsearch:是否可以使用模式标记器发出重叠的标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28173367/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com