elasticsearch - 换行符或标点符号作为 Elasticsearch 中的位置间隙-6ren

elasticsearch - 换行符或标点符号作为 Elasticsearch 中的位置间隙

转载作者：行者123 更新时间：2023-11-29 02:46:40

25

4

在 elasticsearch 中，有没有办法设置一个分析器，当遇到换行符或标点符号时，会在标记之间产生位置间隙？

假设我用以下无意义的字符串(带有换行符)作为其字段之一索引了一个对象:

The quick brown fox runs after the rabbit.
Then comes the jumpy frog.

标准分析器将产生以下具有相应位置的 token :

0 the
1 quick
2 brown
3 fox
4 runs
5 after
6 the
7 rabbit
8 then
9 comes
10 the
11 jumpy
12 frog

这意味着 the rabbit then comes 的 match_phrase 查询会将此文档匹配为命中。有没有办法在 rabbit 和 then 之间引入一个位置间隙，以便它不匹配，除非引入一个 slop？

当然，解决方法可能是将单个字符串转换为数组(每个条目一行)并在字段映射中使用 position_offset_gap，但我真的宁愿保留一个带有换行符的字符串 (最终的解决方案将涉及换行符的位置间隙大于标点符号的位置间隙)。

最佳答案

我最终想出了一个解决方案，使用 char_filter 在换行符和标点符号上引入额外的标记:

PUT /index
{                                              
  "settings": {
    "analysis": {
      "char_filter": {
        "my_mapping": {
          "type": "mapping",
          "mappings": [ ".=>\\n_PERIOD_\\n", "\\n=>\\n_NEWLINE_\\n" ]
        }
      },
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "standard",
          "char_filter": ["my_mapping"],
          "filter": ["lowercase"]
        }
      }
    }
  }
}

使用示例字符串进行测试

POST /index/_analyze?analyzer=my_analyzer&pretty
The quick brown fox runs after the rabbit.
Then comes the jumpy frog.

产生以下结果:

{
  "tokens" : [ {
    "token" : "the",
    "start_offset" : 0,
    "end_offset" : 3,
    "type" : "<ALPHANUM>",
    "position" : 1
  }, {
... snip ...
    "token" : "rabbit",
    "start_offset" : 35,
    "end_offset" : 41,
    "type" : "<ALPHANUM>",
    "position" : 8
  }, {
    "token" : "_period_",
    "start_offset" : 41,
    "end_offset" : 41,
    "type" : "<ALPHANUM>",
    "position" : 9
  }, {
    "token" : "_newline_",
    "start_offset" : 42,
    "end_offset" : 42,
    "type" : "<ALPHANUM>",
    "position" : 10
  }, {
    "token" : "then",
    "start_offset" : 43,
    "end_offset" : 47,
    "type" : "<ALPHANUM>",
    "position" : 11
... snip ...
  } ]
}

关于elasticsearch - 换行符或标点符号作为 Elasticsearch 中的位置间隙，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32608726/

25

4

0

文章推荐： ios - 在 iOS6 中呈现 UIImagePickerController 时应用程序崩溃

文章推荐： ios - 在 UITableView 子类中设置 UITableViewDataSource 无效

文章推荐： elasticsearch - Kibana:在表格可视化中连接两个文档

拆分音频后级联音频中的 FFmpeg 间隙
不确定是间隙还是音频样本未对齐，但是当我将音频文件一分为二时，如下所示: ffmpeg -ss 0 -t 00:00:15.00 -i song.mp3 seg1.mp3 和 ffmpeg -ss 0
cocoa - NSDrawNinePartImage 间隙
我正在使用 NSDrawNinePartImage 绘制自定义按钮/文本字段。我在代码中将图像分割成九个部分，并使用 NSDrawNinePartImage 将其绘制到一个矩形中。不幸的是，我在绘图
android - ProgressBar 间隙
Check this image for the progressbar 知道如何消除 ProgressBar 下的那个小间隙吗？我怎样才能做到没有差距？应该通过 MainActivity 中的 ja
html - 整个网页左侧不需要的边距/间隙
刚开始制作网站时，整个左侧都有几个像素的边距，但我不明白为什么。 http://jsbin.com/elufob/1/ 任何建议将不胜感激 CSS html{ min-width: 1
标题和静态图像之间的 HTML 间隙
我一直在尝试在我的网站上使用静态图像，但页眉和图像之间存在很大差距，我尝试在 Photoshop 和 HTML 中删除填充并更改图像高度。这是我的问题的 fiddle https://jsfiddle
css - 文档顶部的小边距/间隙
我前一段时间遇到过这个问题，忘记了解决方案是什么。我的文档顶部有一个小间隙，大概 5/10 像素？我想你会知道我在说什么，我该如何摆脱它？谢谢最佳答案在您的 CSS 文件中添加: html,
html - 整个网页左侧不需要的边距/间隙
刚开始制作网站时，整个左侧都有几个像素的边距，但我不明白为什么。 http://jsbin.com/elufob/1/ 任何建议将不胜感激 CSS html{ min-width: 1
reactjs - 展开时如何消除 Accordion 间隙？
我正在尝试使用 Accordion MUI 组件在展开模式下不会移动，也不会对某些元素应用顶部和底部边距。示例如下，但它不起作用，我的组件仍然太“跳跃”(扩展时它会增加宽度，并且添加了一些不可见的边
ios - 最后两个单元格之间奇怪的 UITableViewCell 间隙
我有一个自定义 UITableViewCell Card 样式的动态高度，它的空间在应用程序中是恒定的。我正在使用 Storyboard ，并且在 UINavigationBar 下方有 UITool
javascript - 在日期范围数组中查找 'holes'(间隙)
假设您有一组日期范围 var arr = [ { "from": 'unix 1st of august', "until": 'unix 5th of august' },
css - 径向渐变显示一些背线，间隙，空格或边距
我是radial-gradient的新手，我不知道这些多维数据集之间的背线或空格是什么？如何删除它们？ * {margin: 0; outline: 0; border: 0;} .round {
列表前后的 HTML 间隙 (
- css - Chrome 在呈现多个渐变时在中间留下空白/间隙
  我正在阅读 Lea Verou 的《CSS secret 》一书。有一个圆 Angular 径向多重渐变的例子: http://dabblet.com/gist/24484257bc6cf7076a
- html - 修复标题标签前奇怪的 2px 间隙
  我一直在为一个客户做一个元素，一切都很顺利，直到我注意到我的 h1/h2/h3(任何标题标签)已经向右移动了 2/3 像素。他们可能一直都在这样做，但我只是刚刚注意到。当您在 devtools 中突出
- div 内链接之间的 Css 间隙
  这里是 CSS 新手。奇怪的事情发生了，链接之间有间隙，我不知道为什么。我正在使用 html html5 样板 css 进行重置。 HTML代码: Link 1 Link
- html - H1 在标题和页面顶部之间留出空间/间隙
  这个问题在这里已经有了答案: margin on h1 element inside a div (3 个答案) 关闭 6 年前。我有一个问题，我的 h1 标签与我的页面顶部分开 - 像这样:en
- html - 下划线文本 CSS 间隙
  我希望我的文本在事件时带有下划线，但当我这样做时它看起来像这样: 我只希望文本有下划线，如果我使用 text-decoration:underline 它会在单词下划线，但我不知道如何在文本和下划线之
- html - 无法删除表格内两个图像之间的 5px 间隙
  我似乎无法将这两张图片放在一起。它们都在 HTML 表格中自己的行中(我正在制作一封 html 电子邮件)，但我似乎无法删除它们之间的 5px。这是我的代码它也在 jsfi
- Android CardView cardCornerRadius 间隙
  我正在尝试在我的项目中使用新的 CardView UI 小部件，但在某些运行 android 2.3 的设备上，CardView 角之间存在间隙(见下文)。这是在我的 xml 文件中:
- 填充具有公共(public)边框的形状后的Javascript Canvas 间隙
  我想了解并学习当我使用共享边框填充两个形状/路径时遇到的问题的解决方案，即在为所有形状调用填充后，仍然有一个微小的间隙存在于他们之间。该代码片段展示了绘制所涉及的形状/路径的代码: ctx.begi

首页

博学

6Ren·AI

商城

elasticsearch - 换行符或标点符号作为 Elasticsearch 中的位置间隙