lucene - 在Elasticsearch中，当我通过ngram过滤器运行单词时，为什么会丢失整个单词 token ？-6ren

lucene - 在Elasticsearch中，当我通过ngram过滤器运行单词时，为什么会丢失整个单词 token ？

转载作者：行者123 更新时间：2023-12-02 22:52:40

24

4

看来，如果我通过ngram过滤器运行单词或短语，则原始单词不会被索引。取而代之的是，我只能得到最大为max_gram值的单词块。我希望原始单词也能被索引。我正在使用Elasticsearch 0.20.5。如果我使用带有ngrams的过滤器设置索引，如下所示:

CURL -XPUT 'http://localhost:9200/test/' -d '{
    "settings": {
        "analysis": {
            "filter": {
                "my_ngram": {
                    "max_gram": 10,
                    "min_gram": 1,
                    "type": "nGram"
                },
                "my_stemmer": {
                    "type": "stemmer",
                    "name": "english"
                }
            },
            "analyzer": {
                "default_index": {
                    "filter": [
                        "standard",
                        "lowercase",
                        "asciifolding",
                        "my_ngram",
                        "my_stemmer"
                    ],
                    "type": "custom",
                    "tokenizer": "standard"
                },
                "default_search": {
                    "filter": [
                        "standard",
                        "lowercase"
                    ],
                    "type": "custom",
                    "tokenizer": "standard"
                }
            }
        }
    }
}'

然后，我在文档中写了一个很长的字:

CURL -XPUT 'http://localhost:9200/test/item/1' -d '{
     "foo" : "REALLY_REALLY_LONG_WORD"
 }'

我查询这个长词:

CURL -XGET 'http://localhost:9200/test/item/_search' -d '{
  "query":
 {
     "match" : {
         "foo" : "REALLY_REALLY_LONG_WORD"
     }
 }
 }'

我得到0个结果。如果查询该单词的10个字符，我会得到结果。当我运行这个:

curl -XGET 'localhost:9200/test/_analyze?text=REALLY_REALLY_LONG_WORD

我得到了几吨克，但不是原来的话。我是否缺少配置以使它按我想要的方式工作？

最佳答案

如果您想保留完整的词组单词，请为您保留一个“未分析”值或使用关键字 token 生成器的值使用多字段映射。

同样，在搜索具有nGram标记值的字段时，您可能还应该使用nGram标记器进行搜索，然后n个字符的限制也适用于搜索短语，您将获得预期的结果。

关于lucene - 在Elasticsearch中，当我通过ngram过滤器运行单词时，为什么会丢失整个单词 token ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15395853/

24

4

0

文章推荐： elasticsearch - 如何在Elasticsearch中查询空白日期

文章推荐： python - 将 HoloViews VLine 与 PyViz 面板 audio.time 同步

文章推荐： matlab - Audioread 和 Audioinfo 返回不同数量的总样本？

文章推荐： elasticsearch - elasticsearch中的path_hierarchy

eclipse - Ubuntu 崩溃，Eclipse 丢失 .metadata，Java Perspective 消失，丢失，丢失
我在 Ubuntu 10.04 LTS 上运行 Eclipse Galileo。今天 Ubuntu 在我身上崩溃了，重新启动后，我发现 Eclipse 已经完全失去了 Java Perspective
模拟过程中 session 丢失
我使用配置了 sonata_user 的 SonataAdminBundle在 config.yml : sonata_user: impersonating: route:
docker exec 丢失
我有 ubuntu 14.04 但它不见了 docker exec sudo docker exec -it ubuntu_bash bash 我希望在现有正在运行的 docker 容器中运行交互式
ubuntu - libstdc++.a 丢失
我正在使用 Ubuntu 8.04/32 位(作为虚拟机)。在一个不是 min 的项目上执行一些 make 时，我得到了错误: g++:/usr/lib/libstdc++.a: 没有这样的文件或目录
ubuntu - ttyACM0 丢失
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许在 Stack Overflow 上提出有关通用计算硬件和软件的问题。您可以编辑问题，使其成为
iphone - UIImagePickerControllerReferenceURL 丢失
我正在尝试获取有关我在 UIImagePicker 中选择的视频的一些数据。因此，当它进入 UIImagePicker 委托(delegate)方法(如下)时，我知道我需要使用信息字典中的 UIIm
drupal - 重新安装后处理程序损坏/丢失
我的网站最近被可能的黑客行为删除了。我上传了备份的文件夹和数据库，但现在我的 View 没有显示。其他一切都有效。我想不出有什么变化，只是上传了几天前的备份。这些字段在 admin/build/vi
Php session 丢失
我执行以下操作来设置我的 session ，这是有效的，因为 echo 出现了。但是当我转到下一页或另一页时， session 不存在吗？我做错了什么？ $session_start(); if ($
sql - _TABLE_SUFFIX 丢失？
我试图在 BigQuery 中使用这段代码，显然是从 GA 中获取数据，但 _TABLE_SUFFIX 似乎有问题。错误显示“错误:无法识别的名称:_TABLE_SUFFIX at [12:3]”您能
c - 数组的输入未扫描/丢失
输入:8(2 5 6 9 10 2 7 4)预期输出:(2 7 9 9 12 5 7 6)实际输出:(2 7 9 9) 这是我的大学作业，也是我第一次在这里提问。我不知道为什么，但 10 没有扫描，有
javascript - $ 函数不工作(丢失？)
$('div'); // 我在上面的代码中遇到错误。在检查 .js 代码时，我找不到名为 $ 的函数，但根据文档，应该有一个。最佳答案试试 http://ajax.googleapis.co
java System.out 丢失
以下简单代码的输出对我来说有点奇怪。它错过了在控制台上打印的 0 到 100 之间的一些数字。谁能解释一下为什么省略打印？我对并发编程完全陌生。 import java.util.concurren
android - 应用程序图标不可见/丢失
我正在学习 xamarin 以构建移动应用程序，但我对 Xamarin 和移动应用程序一无所知。我打开了一个空白的移动应用程序，其中有“Hello world”示例并编辑了一些文本，但我的应用程序图标
ios - double 丢失
我正在将一些值存储到 sqlite 数据库中。因此，数据是作为字符串从文本字段收集的，然后转换为 double 并持久化。这是我试过的 NSDecimalNumber 答案； value.answe
php - mysql中的许多记录突然消失/丢失
我有一个奇怪的案例。突然，其中一个表中的一些记录(这么多记录)丢失了。首先，我认为这是由我的 PHP 脚本中的错误引起的。但是，我检查了一下，我的脚本中没有DELETE操作，只有UPDATE。有谁知道
iphone - 丢失 NSString
我正在复制 NSString来自 NSDictionary进入本地NSString使用 [[NSString alloc] initWithString:] ，对其进行处理(删除一些字符)，然后将其发
将文件移动到一个文件夹深处时 css 丢失
当保存在根文件夹中时，我的非常基本的 html 页面保持样式。为一个组创建了一个新文件夹，但是当我将页面移动到该文件夹时，它们似乎失去了与 css 文件的连接。认为问题可能出在链接上，因为它现在
opencv - `opencv_createsamples` 丢失
我需要使用 OpenCV 训练一些图像。但问题是，我找不到 opencv_createsamples 程序。我以正常方式安装了 OpenCV，因为我使用的是 Windows 7。这个 opencv_c
java - TableCellRenderer 丢失
我有一个绑定(bind)到 JTable 的 ArrayList。之后 bindingGroup.unbind(); bindingGroup.bind(); (完成刷新数据)我丢失了表格单元格渲
Android 丢失 keystore
所以基本上我们只是丢失了一个 keystore 和备份 keystore 。但是我们可能知道原始 keystore 的密码。我的问题是，如果我们知道原始 keystore 的密码，我们可以重新生成

首页

博学

6Ren·AI

商城

lucene - 在Elasticsearch中，当我通过ngram过滤器运行单词时，为什么会丢失整个单词 token ？