elasticsearch - 如何去除撇号？-6ren

elasticsearch - 如何去除撇号？

转载作者：行者123 更新时间：2023-12-03 01:48:58

25

4

在这里定义:

The apostrophe token filter strips all characters after an apostrophe, including the apostrophe itself.

试图去除撇号和它们后面的字符。当只有一个撇号时，过滤器根本不会剥离任何内容。同样，当存在多个顺序的撇号时，它将拆分相关的单词 ，但在撇号之后不剥离任何内容。显然，我一定错过了一些东西。

单引号输入:

POST localhost:9200/_analyze?
{
    "filter": ["apostrophe"],
    "text": "apple banana'orange kiwi"
}

输出量

{
  "tokens": [
    {
      "token": "apple",
      "start_offset": 0,
      "end_offset": 5,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "banana'orange",
      "start_offset": 6,
      "end_offset": 19,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "kiwi",
      "start_offset": 20,
      "end_offset": 24,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

输入带有多个连续的撇号。

{
    "filter": ["apostrophe"],
    "text": "apple banana''orange kiwi"
}

输出量

{
  "tokens": [
    {
      "token": "apple",
      "start_offset": 0,
      "end_offset": 5,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "banana",
      "start_offset": 6,
      "end_offset": 12,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "orange",
      "start_offset": 14,
      "end_offset": 20,
      "type": "<ALPHANUM>",
      "position": 2
    },
    {
      "token": "kiwi",
      "start_offset": 21,
      "end_offset": 25,
      "type": "<ALPHANUM>",
      "position": 3
    }
  ]
}

最佳答案

如果仅使用 token 过滤器，则将无法正常工作，因为standard分析器将启动并标记您的输入，并且apostrophe token 过滤器将被忽略。如果添加explain参数，您将获得有关正在发生的事情的更多信息:

curl -XPOST 'localhost:9200/_analyze?pretty&filter=apostrophe&explain' -d "apple banana'orange kiwi"
{
  "detail" : {
    "custom_analyzer" : false,
    "analyzer" : {
      "name" : "standard",
      "tokens" : [ {
        "token" : "apple",
        "start_offset" : 0,
        "end_offset" : 5,
        "type" : "<ALPHANUM>",
        "position" : 0,
        "bytes" : "[61 70 70 6c 65]",
        "positionLength" : 1
      }, {
        "token" : "banana'orange",
        "start_offset" : 6,
        "end_offset" : 19,
        "type" : "<ALPHANUM>",
        "position" : 1,
        "bytes" : "[62 61 6e 61 6e 61 27 6f 72 61 6e 67 65]",
        "positionLength" : 1
      }, {
        "token" : "kiwi",
        "start_offset" : 20,
        "end_offset" : 24,
        "type" : "<ALPHANUM>",
        "position" : 2,
        "bytes" : "[6b 69 77 69]",
        "positionLength" : 1
      } ]
    }
  }
}

如您所见，以上只是使用 standard分析器。

要解决此问题，您只需指定至少一个标记器即可。如果您使用 standard标记生成器，则它将按预期工作。您会看到您现在有了一个使用 standard标记生成器和 apostrophe标记过滤器的自定义分析器，它们现在可以正确地完成其工作。

curl -XPOST 'localhost:9200/_analyze?pretty&tokenizer=standard&filter=apostrophe&explain' -d "apple banana'orange kiwi"
{
  "detail" : {
    "custom_analyzer" : true,
    "charfilters" : [ ],
    "tokenizer" : {
      "name" : "standard",
      "tokens" : [ {
        "token" : "apple",
        "start_offset" : 0,
        "end_offset" : 5,
        "type" : "<ALPHANUM>",
        "position" : 0,
        "bytes" : "[61 70 70 6c 65]",
        "positionLength" : 1
      }, {
        "token" : "banana'orange",
        "start_offset" : 6,
        "end_offset" : 19,
        "type" : "<ALPHANUM>",
        "position" : 1,
        "bytes" : "[62 61 6e 61 6e 61 27 6f 72 61 6e 67 65]",
        "positionLength" : 1
      }, {
        "token" : "kiwi",
        "start_offset" : 20,
        "end_offset" : 24,
        "type" : "<ALPHANUM>",
        "position" : 2,
        "bytes" : "[6b 69 77 69]",
        "positionLength" : 1
      } ]
    },
    "tokenfilters" : [ {
      "name" : "apostrophe",
      "tokens" : [ {
        "token" : "apple",
        "start_offset" : 0,
        "end_offset" : 5,
        "type" : "<ALPHANUM>",
        "position" : 0,
        "bytes" : "[61 70 70 6c 65]",
        "positionLength" : 1
      }, {
        "token" : "banana",
        "start_offset" : 6,
        "end_offset" : 19,
        "type" : "<ALPHANUM>",
        "position" : 1,
        "bytes" : "[62 61 6e 61 6e 61]",
        "positionLength" : 1
      }, {
        "token" : "kiwi",
        "start_offset" : 20,
        "end_offset" : 24,
        "type" : "<ALPHANUM>",
        "position" : 2,
        "bytes" : "[6b 69 77 69]",
        "positionLength" : 1
      } ]
    } ]
  }
}

关于elasticsearch - 如何去除撇号？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42004448/

25

4

0

文章推荐： java - Android Java:更新seekbar以在播放音频文件时显示进度

文章推荐： javascript - Firebase 在渲染之前在 Nuxtjs 上获取

文章推荐： javascript - 如何浏览/收集网页的音频资源？

ruby - 去除/替换字符串中的空格
给定一个字符串"5 900 000" 我想通过以下模式使用 gsub 去除空格: gsub(/\s/, '') 但这似乎行不通。也没有: gsub(' ', '') 最佳答案如果你想就地替换，你需要
c# - 去除 Excel 工作表的非法字符
我编写了一个程序来抓取网站以获取数据并输出到 Excel 表。该程序使用 Microsoft Visual Studio 2010 用 C# 编写。大多数时候，我从网站获取内容、解析内容并将数据存储
sql - 去除 SELECT 中的非数字字符
在 MS Access 2007 项目报告中，我有以下(已编辑)查询: SELECT SomeCol FROM SomeTable 问题是， SomeCol 显然包含一些不可见的字符。例如，我看到一个
antlr - 去除 ANTLR 中的左递归
如 Removing left recursion 中所述，有两种方法可以去除左递归。使用一些过程修改原始语法以删除左递归写文法原来没有左递归人们通常使用什么来删除(没有)ANTLR 的左递归？
iphone - NSSortDescriptor 去除 "the"前缀
我在 CoreData 中存储了一堆艺术家，并希望按名称对它们进行排序，但忽略前缀“the”。例如，“The Beatles”将被排序为“Beatles”，有点像 iTunes/iPod 的做法。因
macos - 去除 webview 的弹性
我有一个 WebView ，我想从中删除弹性。现在，当滚动小于 webview 的页面时，它会产生弹性效果，显示下面的背景。我想删除这个。我尝试过执行以下操作，但没有成功。它找到了 WebDynam
monitoring - 去除 Prometheus 中的标签
我正在调查我们公司使用 Prometheus 从我们在 Kubernetes 上运行的实验中收集统计数据。有计划使用标签来标记我们的云/集群中特定实验的名称。这意味着我们将生成大量标签，这些标签会随着
dart - 去除 Dart 中的聚合物元素
我正在添加聚合物元素。我想在单击其(自己的)图像时删除元素(自我)。根据封装，我将不得不让 parent 删除 child 。但这也需要为母体生成聚合物元素(我在这里吗？？)。 children.ad
WPF 去除 DropShadow 效果
现在如果我点击按钮 A，按钮 B 会显示 DropShadow 效果: Private Sub ButtonA_Click(ByVal sender As System.Object, ByVal
c - 去除 NL 的最佳方法
我尝试过这个，但它对我不起作用: char * remove_nl(char * newstr) { newstr = strdup(newstr); newstr[strlen(ne
javascript - 去除 HTML 图像中的空白
我陷入了两难境地。我有一个图像，我想占据网页的背景。我希望它横跨屏幕的宽度和高度，并保持那个尺寸。当我使用标签，我不知道如何将它拉伸(stretch)到没有白条的屏幕上。 wspace 和 hspa
javascript - 去除 Jade 空白
Jade .foo .foo 结果想要的结果在 haml 中我会做类似 .foo>< 的事情但这在 Jade 中不起作用。我已经搜索并空手而归如何处理这个问题。我如何达到预期的结果
java - 去除 POM 中不必要的依赖
我是 Maven 的新手，当我尝试将我当前的项目从使用 Ant 转换为 -> 使用 Maven 时遇到了问题。那个项目需要很多 Jar，我在 mvnrepository 上查找这些 jar 并将它们
java - 去除 xml 标签开头和结尾之间的空格
我需要一个正则表达式来删除 xml 标记开头和结尾之间的空格。例如:有人创建 xml 并将其发送给我，这样我就可以验证、签名并发送到网络服务。为此，我需要删除标签开头和结尾之间的空格: String
javascript - 去除 JavaScript 列表中重复项的最佳方法是什么？
我写了几个方法来将项目添加到数组中，如果它们已经在数组中，它们将被忽略。在对数据结构做了一些研究之后，我意识到我可以通过简单地将它们放在一个集合中来摆脱重复(特别是因为我不关心对象的顺序)。然而，在玩
javascript - 去除 Highcharts 曲线上的抗锯齿
使用 HighCharts，我想移除 SVG 曲线上的抗锯齿。到目前为止，我正在使用这个: $('path').each(function(i,j){$(j).attr('shape-renderi
java - 去除 SeekBar 阴影
由于某些奇怪的原因(黑色但不是黑色部分)，我的 SeekBar 和拇指后面出现随机阴影。我该如何摆脱它？我的搜索栏: 拇指.xml progress_appearance.xml(有一些
rust - 去除 Url 路径的尾随文件名
我有一个 Url，我想获取路径部分但没有尾随文件名。如果 Url 是 http://my.com/dir1/dir2/file.ext 那么我想获取 /dir1/dir2 . 我已经尝试了各种拆分(l
ios - 去除 URL 字符串中的括号 ()
我有这个字符串: dataSourceURL = URL(string:"https://api.abc.com/api/p4/products?pid=uid8225&format=json&off
css - 去除 GWT 生成的绝对位置
在我的网页中，我有一个菜单 (HorizontalPanel) 应该隐藏在页面的底部。为此，我尝试使用 RootLayoutPanel 类并在其中添加一个 south 小部件，我成功地做到了。但问

首页

博学

6Ren·AI

商城

elasticsearch - 如何去除撇号？