gpt4 book ai didi

java - 用于文本分析的Elasticsearch Analyzers

转载 作者:行者123 更新时间:2023-12-02 23:44:20 25 4
gpt4 key购买 nike

我是Elasticsearch的新手,并且愿意用于全文搜索引擎。
对于文本分析,我需要使用(多语言)语言分析器。 Elasticsearch提供了内置的语言分析器,但我不确定它们是否涵盖了预处理步骤,例如:删除停用词,词干,去除不需要的字符等。我将使用多字段,因为所有(描述)语言都在同一字段中建立了索引在文档中。这样的映射在这种情况下是否正确?

{
"mappings": {
"properties": {
"description": {
"type": "text",
"analyzer": "english"
},
"description": {
"type": "text",
"analyzer": "german"
},
"description": {
"type": "text",
"analyzer": "french"
}
}
}
我很困惑如何使用语言分析器来分析输入文本,以及何时使用映射而不是设置?

最佳答案

如果使用预定义的语言分析器,则它们在内部使用相应的语言停用词,其中列出了提到的here,还可以使用它们定义自己的自定义停用词。
例如,this Lucene代码(Elasticsearch内部使用Lucene)显示english分析器的停用词,但是如果您想添加更多的世界,您也可以这样做。
对于词干,stemmer official doc中所述,您可以使用词干标记过滤器并进行自定义,并且还提到了语言。
此外,分析器会经历三个阶段的过程(char过滤器,tokenizer和 token 过滤器),内置语言分析器已预先配置了所有这些功能,并且如果您愿意,可以使用自己的东西并使用自定义分析器自定义它们。

关于java - 用于文本分析的Elasticsearch Analyzers,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62512199/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com