elasticsearch - 信息检索 - 我如何处理将单个单词分解为多个标记的搜索查询-6ren

elasticsearch - 信息检索 - 我如何处理将单个单词分解为多个标记的搜索查询

转载作者：行者123 更新时间：2023-12-03 02:37:15

24

4

我只是信息检索的初学者。
我正在寻求解决一个问题，即用户在输入单词时错误地在字符之间添加空格或将两个单词合并为一个，由于简单的倒排索引查找，该问题目前无法处理。
假设我对以下文档进行了倒排索引:

jack 和吉尔是好 friend 。

jack 去了阿拉斯加。

吉尔住在纽约。

现在拥有倒排索引意味着拥有新和纽约索引为单独的标记(假设仅作为示例并且没有使用 NLP 将纽约标记为位置)

token    count    location
jack      2          1,2
jill      2          1,2
new       1           3
york      1           3
alaska    1           4

现在查询 千斤顶 ，我会得到位置 1,2，这很好。
但查询纽约 (假设查询没有空格)我怎样才能得到纽约来自将具有位置 3(组合)的索引。
也可查询 阿拉斯卡 (带空格)如何检索 token 阿拉斯加 (索引中没有空格)分别。
我错过的任何建议或任何特定算法。
我只是信息检索的初学者。
感谢您的帮助。
我正在考虑将每个查询标记分解为字符元组合，最后将它们合并以找出最常见的标记。
例如查询纽约

Find all the tokens of till limit n, starting with n... then ne....then new.... then newy.... etc, similarly like ne.. ew...wy..yo..or..rk...,

which will finally after merging the array will get new and york somewhere..

与查询 类似阿拉斯卡 (用空格打破这个词)

最佳答案

也许这样的东西对你有用:

使用自定义分析器创建索引( ngram 标记器)
Read about NGram Tokenizer

PUT /index
{
  "mappings": {
    "doc": {
      "properties": {
        "token": {
          "type": "text",
          "analyzer": "myanalyzer"
        },
        "location":{
          "type": "text"
        }
      }
    }
  },
  "settings": {
    "analysis": {
      "analyzer": {
        "myanalyzer": {
          "tokenizer": "my_tokenizer",
          "filter": []
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "token_chars": [
            "letter",
            "digit",
            "symbol",
            "punctuation"
          ],
          "min_gram": "3",
          "type": "ngram",
          "max_gram": "4"
        }
      }
    }
  }
}

让我们发布新文件

POST index/doc
{
  "token": "alaska",
  "location":[4]
}

POST index/doc
{
  "token": "york",
  "location":[3]
}

POST index/doc
{
  "token": "new",
  "location":[3]
}

POST index/doc
{
  "token": "jack",
  "location":[1,2]
}

 POST index/doc
 {
   "token": "jill",
   "location":[1,2]
 }

搜索:

GET index/_search
{
  "query": {
    "match": {
      "token": "ala ska"
    }
  }
}

结果:

{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 1.9346048,
    "hits": [
      {
        "_index": "index",
        "_type": "doc",
        "_id": "z7hBMG4BXy8wPzqAcq-C",
        "_score": 1.9346048,
        "_source": {
          "token": "alaska",
          "location": [
            4
          ]
        }
      }
    ]
  }
}

关于elasticsearch - 信息检索 - 我如何处理将单个单词分解为多个标记的搜索查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58678161/

24

4

0

文章推荐： elasticsearch - 索引清理和保留弹性云

文章推荐： ios - 在iphone/ipad扬声器中录制音频

文章推荐： iphone - 如何创建一个乐器

javascript - anchor 标记(标记)onclick 事件处理程序不工作
虽然我在 reactjs 组件(组件名称为 renderLocationLink)的渲染方法返回的 html 中包含了 a 标签的 onclick 处理程序，但渲染正确地发生了 onclick 处理程
ms-word - docx - 标记/标记 - docx 转换
我必须以 docx 格式存储一些文档，但无法忍受使用 msword:我想编辑某种纯文本标记，除了基于 XML 的东西(我也不喜欢那样)和从/到那个到/从 docx 转换。有什么选择吗？编辑:由于人
javascript - 一旦设置了 anchor 标记，在延迟后如何单击 anchor 标记？
有一个页面，其 anchor 标记在延迟后变得可点击。我想使用用户脚本在可点击后点击它。页面加载时，HTML 源代码为: Download 延迟一段时间后，#button 变
python - 解析 XML，搜索目标起始标记，并忽略其上方的所有标记
我正在将 XML 文件解析为 pandas 数据帧。使用下面的代码我可以成功获取所有内容，但是这使用了完整 XML 的编辑版本。完整的 XML 在主数据表之上有一堆摘要数据，请参阅完整的 XML he
python - 如何在提供给 python 中的 xml.sax 解析器之前从 xml 文件中删除特殊字符和 & 标记(无效的 xml 标记)
目前我正在研究 xml.sax 解析器来解析 xml 文件假设我有以下代码 filepath = 'users/file.xml' try: parser = xml.sax.make_pa
ANTLR - 树中的隐式 AND 标记
我正在尝试构建一种语法来解释用户输入的文本，搜索引擎风格。它将支持 AND、OR、NOT 和 ANDNOT bool 运算符。我几乎所有东西都在工作，但我想添加一个规则，将引用字符串之外的两个相邻关键
Terraform EKS 标记
我遇到了 Terraform EKS 标记的问题，并且似乎没有找到可行的解决方案来在创建新集群时标记所有 VPC 子网。提供一些上下文:我们有一个 AWS VPC，我们在其中将多个 EKS 集群部署
xpath - XPath返回XHTML文件中的第一个标记
我是xpath的新手，对此了解不多。我知道有一种方法可以使用xpath在xml / xhtml文件中查找特定标签。就我而言，我试图找到第一个（a）链接元素。不幸的是，我的xpath字符串[// a [
javascript - 单击内部按钮时防止单击父 A 标记
我在索引页上的产品卡上遇到问题。在产品卡内部，我有 Vue 组件来渲染表单(数量和添加到购物车按钮)。当我单击“添加到购物车”按钮时，我得到了预期的结果。响应被发送到根 vue 组件，然后我看到产品已
css - 背景颜色不适用于标记
html setMouse(true)} onMouseEnter={() => setMouse(false)} className='resume-container'> CSS .resum
delphi - 标记/取消标记一组枚举中的另一个选项
我在组件中有一组枚举，如下所示: type TOption = (clVisible, clVisibleAlways, clRenderable, clEditable); TOptions
用于性能考虑的 Javadoc 标记
是否有出于性能考虑的javadoc标签？人们可以想象: /** * ...other javadoc tags... * @perform Expected to run in O(n) tim
css - 背景颜色不适用于标记
html setMouse(true)} onMouseEnter={() => setMouse(false)} className='resume-container'> CSS .resum
Neo4j:更快的子图着色/标记
我有一个包含多个小子图的图。目标是当且仅当子图中的所有节点都是蓝色时，才将子图中的所有蓝色节点标记为红色。如果子图中的一个节点具有不同的颜色，绿色，那么我们将不会更改该子图中节点的颜色。这是我正在使
多个事件的 Gmail 标记
我正在使用 json-ld 开发事件标记以包含在确认电子邮件中。我的一些事件会定期重复发生。但是，最新的 Schema.org 规范不支持重复发生的事件，因此我遵循了此处提供的建议:http://l
java - 标记 -> 转到行号
我创建了一个插件，可以添加带有相应行号的标记。现在，这很棒，因为它现在显示在“标记” View 中。有没有办法当我双击标记上的一行时，它会转到标记指示的行？谢谢。最佳答案双击“标记” View
jquery - Facebook 标记
是否有一个插件具有与 Facebook 标记类似的行为？它的特别之处在于它具有: 在键入的单词之间自动完成特殊输出的 html(与另一个输入字段同步) 最佳答案您可以使用jquery提及输入pl
java - 分割字符串/标记
有没有更好的方法来读取java文件中的 token ？我目前正在使用 StringTokenizer 来分割 token 。但在大多数情况下，它的效率可能非常低，因为您必须逐个 token 地读取 t
Java:标记/标记文件
我想知道是否有某种方法可以标记文件来识别该文件是否包含x。考虑以下示例: 在批量转换过程中，我正在创建一个日志文件，其中列出了各个转换的成功/失败。所以流程如下: 开始转换过程创建名为batch
jquery模拟点击html anchor 标记
我一直在尝试模拟点击标签，但这并没有像我需要的那样工作。我的 anchor 标记看起来像这样 Download this pic 正常的 $("a").click() 或 trigger('cli

首页

博学

6Ren·AI

商城

elasticsearch - 信息检索 - 我如何处理将单个单词分解为多个标记的搜索查询