gpt4 book ai didi

elasticsearch - Elasticsearch的单词定界符过滤器类型表的有效类型是什么?

转载 作者:行者123 更新时间:2023-12-02 22:20:23 24 4
gpt4 key购买 nike

Elasticsearch's Word Delimiter filter有一个非常有用的选项type_table;它使您可以将特殊字符转换为 token 的合法字符。

但是,它的文档非常稀疏:

type_table
A custom type mapping table, for example (when configured using type_table_path):
# Map the $, %, '.', and ',' characters to DIGIT
# This might be useful for financial data.
$ => DIGIT
% => DIGIT
. => DIGIT
\\u002C => DIGIT

# in some cases you might not want to split on ZWJ
# this also tests the case where we need a bigger byte[]
# see http://en.wikipedia.org/wiki/Zero-width_joiner
\\u200D => ALPHANUM

从该示例中,我们可以看出 DIGITALPHANUM是我们可以映射字符的有效选项。还有哪些其他选择,它们又做什么?

最佳答案

我通过深入研究Lucene文档找到了答案,该文档基本上引用了Elasticsearch。

WordDelimiterFilterFactory的文档链接到this file in the Subversion repository。它在Elasticsearch文档中被大量引用,但包含以下附加代码段:

A customized type mapping for WordDelimiterFilterFactory the allowable types are: LOWER, UPPER, ALPHA, DIGIT, ALPHANUM, SUBWORD_DELIM

关于elasticsearch - Elasticsearch的单词定界符过滤器类型表的有效类型是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29476167/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com