gpt4 book ai didi

elasticsearch - 默认分析器会解析哪些字符?

转载 作者:行者123 更新时间:2023-12-03 01:54:42 25 4
gpt4 key购买 nike

我正在尝试查找有关字符串分析器如何工作的文档,更具体地说,是在建立索引的terms数组时它们解析的哪些字符?

我看过herehere时没有任何运气。

这是一个例子:

如果我要对具有名为email且字段值为"test@hotmail.com"的字段的文档进行索引,那么如果将"test""hotmail.com"作为查询给出,则匹配查询将返回此文档。这表明分析器仅分析@字符,而不分析.字符。

我想了解更多有关哪些其他字符被视为普通字符,将哪些字符完全去除以及对哪些字符进行解析的信息?

有谁知道在哪里可以找到此信息?

最佳答案

如第二个链接中所述,分析字符串时启动的默认分析器是standard analyzer,它使用standard tokenizer

如果检查最后一个链接,您会看到标准 token 生成器强制执行Unicode Standard Annex #29的 token 生成规则。

在该文档中,有一个名为4 Word Boundaries的部分,另一个名为5 Sentence Boundaries的部分准确定义了如何根据此各种规则并根据许多不同的Unicode序列(还取决于所分析的语言)来分割 token 的字符和时间。

例如,句点.字符仅在直接跟有空格的情况下才视为句子边界(电子邮件中不是这种情况)。

关于elasticsearch - 默认分析器会解析哪些字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37445784/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com