gpt4 book ai didi

elasticsearch - 更改Elasticsearch Path Hierarchy Tokenizer定界符

转载 作者:行者123 更新时间:2023-12-02 23:33:07 29 4
gpt4 key购买 nike

我在使用Path Hierarchy Tokenizer时遇到了一些问题。
我需要的是使用使用反斜杠作为分隔符的路径层次结构标记器。

我正在尝试做的是索引和搜索Windows路径。

 "index": {
"analysis": {
"tokenizer": {
"path": {
"type": "path_hierarchy",
"delimeter": "\\"
}
},
"analyzer": {
"analyzer_path": {
"type": "custom",
"tokenizer": "path",
"filter": "lowercase"
}
}
}

当我尝试获取自定义字符串的标记化元素时,我得到了一个标记
GET /test/_analyze?analyzer=analyzer_path&text=C:\Users\Admin\AppData\Local\Temp\hello.exe


"tokens": [
{
"token": "c:\\users\\admin\\appdata\\local\\temp\\hello.exe",
"start_offset": 0,
"end_offset": 43,
"type": "word",
"position": 1
}
]

使用正斜杠给出正确的结果
GET /test/_analyze?analyzer=analyzer_path&text=C:/Users/Admin/AppData/Local/Temp/hello.exe

我得到了所有的 token 。

似乎分隔符设置被完全忽略了。

最佳答案

您有错字,delimeter应该读为 delimiter 。这可能是问题所在。

它使用正斜杠的原因是,如果未指定正斜杠,则它是默认的定界符,并且由于delimeter拼写错误,因此将使用默认的定界符。

他们可能应该做的是由于参数未知而发出错误,而是just silently ignore it。您可能会使用file an issue

关于elasticsearch - 更改Elasticsearch Path Hierarchy Tokenizer定界符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34397784/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com