elasticsearch ngram 分析器/tokenizer 不工作？-6ren

elasticsearch ngram 分析器/tokenizer 不工作？

转载作者：行者123 更新时间：2023-11-29 02:55:16

24

4

似乎 ngram 分词器不工作或者我对它的理解/使用不正确。

我的分词器正在处理 mingram of 3 和 maxgram of 5。我正在寻找术语“madonna”，它肯定在我的文档中的 artists.name 下。我可以使用其他技术(使用简单的分析器和相关工具)找到该术语，但不能使用 ngram。

我试图通过使用 ngram 来完成的是查找名称并解释拼写错误。

请查看我的映射、我的设置和我的查询的简化版本，如果您有任何想法，请告诉我 - 这让我抓狂!

设置...

{
   "myindex": {
      "settings": {
         "index": {
            "analysis": {
               "analyzer": {                  
                  "ngramAnalyzer": {
                     "type": "custom",
                     "filter": [
                        "lowercase"
                     ],
                     "tokenizer": "nGramTokenizer"
                  }  
               },
               "tokenizer": {
                  "nGramTokenizer": {
                     "type": "nGram",
                     "min_gram": "3",
                     "max_gram": "5"
                  }
               }
            },
            "number_of_shards": "5",
            "number_of_replicas": "1",
            "version": {
               "created": "1020199"
            },
            "uuid": "60ggSr6TREaDTItkaNUagg"
         }
      }
   }
}

映射 ...

{
   "myindex": {
      "mappings": {
         "mytype": {
            "properties": { 
               "artists.name": {
                  "type": "string",
                  "analyzer": "simple",
                  "fields": {
                     "ngram": {
                        "type": "string",
                        "analyzer": "ngramAnalyzer"
                     },
                     "raw": {
                        "type": "string",
                        "index": "not_analyzed"
                     }
                  }
               }
            }
         }
      }
   }
}

查询...

{"query": {"match": {"artists.name.ngram": "madonna"}}}

文件...

{
   "_index": "myindex",
   "_type": "mytype",
   "_id": "602537592951",
   "_version": 1,
   "found": true,
   "_source": {
      "artists": [
         {
            "name": "Madonna",
            "id": "P    64565"
         }
      ]
   }
}

编辑顺便说一句，这个查询有效(没有 ngram):

{"query": {"match": {"artists.name": "madonna"}}}

这显然与这里的嵌套对象有关。我显然没有正确地将 ngram 应用于嵌套对象。

想法？

最佳答案

好的 - 我想通了。我真的希望这对某人有所帮助，因为它让我发疯。

这是我的映射结果的样子:

{
   "myindex": {
      "mappings": {
         "mytype": {
            "properties": {               
               "artists": {
                  "properties": {
                     "id": {
                        "type": "string"
                     },
                     "name": {
                        "type": "string",
                        "analyzer": "ngramAnalyzer",
                        "fields": {
                           "raw": {
                              "type": "string",
                              "index": "not_analyzed"
                           }
                        }
                     }
                  }
               }
            }
        }
    }
}

这是我如何使用 Nest 语法完成的...

首先我有一个名为 Person 的子类型(类)，它有一个 Name 和 Id，看起来像这样 (POCO)...

[Serializable]
public class Person
{
    public string Name { get; set; }
    [ElasticProperty(Analyzer = "fullTerm", Index = FieldIndexOption.not_analyzed)]
    public string Id { get; set; }
}

然后我的映射变成了这样......

.AddMapping<MyIndex>(m => m
.MapFromAttributes()
.Properties(props =>
{
    props           
        .Object<Person>(x => x.Name("artists")
        .Properties(pp => pp
            .MultiField(
                mf => mf
                .Name(s => s.Name)
                .Fields(f => f
                    .String(s => s.Name(o => o.Name).Analyzer("ngramAnalyzer"))
                    .String(s => s.Name(o => o.Name.Suffix("raw")).Index(FieldIndexOption.not_analyzed))
                )
            )
        )
    )
)

注意:此处的对象表示它是我的类型“艺术家”下的另一个对象。

谢谢我!!!

edit: curl mappings might be something like this...

curl-XPOST"http://localhost:9200/yourindex/_mappings"-H'Content-Type:application/json'-d'{"myindex":{"mappings":{"mytype":{"properties":{"artists":{"properties":{"id":{"type":"string"},"name":{"type":"string","analyzer":"ngramAnalyzer","fields":{"raw":{"type":"string","index":"not_analyzed"}}}}}}}}}}'

关于elasticsearch ngram 分析器/tokenizer 不工作？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24290151/

24

4

0

文章推荐： elasticsearch - 如何在 Elastic Search 中返回子文档的父 ID？

文章推荐： json - 需要在 LogStash 中将字符串转换为 JSON

文章推荐： Elasticsearch Java API : set a field as _id

search - nGram 部分匹配和限制 nGram 导致多字段查询
背景 :我通过索引标记化名称(name 字段)以及三元分析名称(ngram 字段)，对名称字段实现了部分搜索。我已经提升了 name字段具有精确的标记匹配冒泡到结果的顶部。问题 :我正在尝试实现一
python - 如何执行 ngram 到 ngram 关联
有人能给我指出解决以下问题的正确方向吗？我有一个来自 UMLS 的巨大医学术语列表，即样本可能是 Disease control is good Disease control is poor Di
elasticsearch - Elasticsearch中的 `ngram`过滤器和 `ngram` token 生成器之间是否存在性能差异
我都尝试过，当我测试分析仪时它们似乎产生相同的结果 settings: { analysis: { filter: { ngram_filter: {
r - 在 R 中查找 ngram 并比较跨语料库的 ngram
我正在开始使用 R 中的 tm 包，所以请耐心等待，并对大段文字表示歉意。我创建了一个相当大的社会主义/共产主义宣传语料库，并希望提取新创造的政治术语(多个词，例如“斗争-批评-改造运动”)。这是一
Python 的 Sklearn ngram 准确度随着 ngram 长度的增加而降低
我有一个仇恨言论数据集，其中包含一些 10k 标记的推文:它看起来像这样推文 |类大家好 |不具攻击性你这个丑陋的布偶 |攻击性但不是仇恨言论你这该死的犹太人|仇恨言论现在我正在尝试使用 S
使用 NGram Tokenizer 时，ElasticSearch 不遵守最大 NGram 长度
我正在使用 Ngram 标记器，我已将 min_length 指定为 3 并将 max_length 指定为 5。但是，即使我尝试搜索长度大于 5 的单词，它仍然会给我结果。它很奇怪，因为 ES 不会
elasticsearch - 边缘 ngram token 过滤器与 ngram token 过滤器有何不同？
由于我是 Elasticsearch 的新手，我无法识别 ngram 标记过滤器和边缘 ngram 标记过滤器。这两个有什么区别处理 token ？最佳答案我认为 documentation对
删除带有前导和尾随停用词的 ngram
我想识别一堆学术论文中的主要 n-gram，包括带有嵌套停用词的 n-gram，但不包括带有前导或尾随停用词的 n-gram。我有大约 100 个 pdf 文件。我通过 Adobe 批处理命令将
javascript - ngram 的数据结构
我已经用 Javascript 构建了一个 ngram 模型实现，效果很好。但是，我希望更改我的数据结构，以便每次观察到新单词/字符时都不必遍历所有历史记录。在这里，我获取一个种子文本并用它来构建阶
elasticsearch - ES搜索部分词-ngram？
我正在使用Elastic Search索引包含两个字段的实体:agencyName和agencyAddress。假设我已经索引了一个实体: { "agencyName": "Turismo
elasticsearch - ngram Elasticsearch
curl -XPUT 'http://localhost:9200/testsoundi' -d '{ "settings": { "analysis": { "analyzer": {
elasticsearch - 带有多种语言的ES NGram
我正在尝试实现由ES索引提供支持的自动建议控件。该索引具有多个字段(多语言-阿拉伯语和英语)，我希望能够以所有语言进行搜索。最简单的方法是使用带有“_all”字段的NGram，只要在映射定义中有所注
elasticsearch - 在某些查询中忽略Edge NGram
我遵循this guide创建自动完成搜索...我正在做的是使用Edge NGram标记程序，对我的一个字段(标题)进行标记。我将这些Edge NGrams用于自动完成搜索this is my sol
ElasticSearch nGram 过滤掉标点符号
在我的 ElasticSearch 数据集中，我们有以句点分隔的唯一 ID。样本编号可能类似于 c.123.5432 使用 nGram 我希望能够搜索:c.123.54 这不会返回任何结果。我相信标记
Java Lucene Ngrams
我想使用 Lucene API 从句子中提取 ngram。然而我似乎遇到了一个特殊的问题。在 JavaDoc有一个名为 NGramTokenizer 的类。我已经下载了 3.6.1 和 4.0 API
mysql ngrams 索引示例
正如我在很多地方读到的，ngram 索引可以改进单词搜索。在这篇旧帖子中，它说它可以适用于 mysql，但没有说明如何:levenshtein alternative 任何人都可以举一些例子，因为你可
python - ngram 计数后如何在数据框中添加额外的列
这是我现在拥有的代码，我使用的 csv 文件有两列，一列包含文本，一列包含它所属的对话编号。现在我已经设法从文本中获取不同的 ngram，但我还希望获得链接到 ngram 的对话数量。因此，如果一个
python - 单词 ngrams 的最大长度与上下文窗口大小之间的差异
在 python 的 fasttext 库的描述中 https://github.com/facebookresearch/fastText/tree/master/python对于训练监督模型有不同
r - 为什么 ngrams() 函数给出不同的二元组？
我正在写一个 R脚本并正在使用库(ngram)。假设我有一个字符串， “质量好狗粮购买了重要的 jar 头狗粮产品发现质量好，产品看起来像炖肉，味道更好，拉布拉多菲尼奇鉴赏产品更好” 并想找
使用 tidytext 删除包含停用词的 ngram
更新:感谢您的投入。我重写了这个问题并添加了一个更好的例子来突出我的第一个例子中没有涵盖的隐含要求。问题我要找一个将军tidy删除包含停用词的 ngram 的解决方案。简而言之，ngram 是由空

首页

博学

6Ren·AI

商城

elasticsearch ngram 分析器/tokenizer 不工作？