Elasticsearch 查询好的标题关键字结果-6ren

Elasticsearch 查询好的标题关键字结果

转载作者：行者123 更新时间：2023-11-29 02:50:33

我们有一个包含产品目录的 elasticsearch 索引，我们希望按标题和描述进行搜索。

我们希望它有以下约束:

我们正在搜索出现的标题和描述(标题中的匹配项应该是描述的两倍重要)
我们希望它有一个非常模糊的搜索结果(但仍然是准确的结果)
不应该过滤掉与搜索词不匹配的结果，而只是稍后显示(所以匹配的结果应该在顶部，较差的结果应该在底部)
category_id 应过滤掉产品(因此不应显示其他类别的结果)
created_at 属性在排序中也应该具有很高的值(value)。产品应该失去他们获得的“旧”分数。 (这很重要，因为他们每天都在失去重要性)

我曾尝试创建这样的查询，但结果确实不太准确。有时会发现完全不相关的东西。我认为这是因为通配符查询。

此外，我认为“created_at”评分必须有更优雅的解决方案。对吧？

我正在使用 Elasticsearch 6.2

这是我当前的代码。我很高兴看到一个优雅的解决方案:

{
  "sort": [
    {
      "_score": {
        "order": "desc"
      }
    }
  ],
  "min_score": 0.3,
  "size": 12,
  "from": 0,
  "query": {
    "bool": {
      "filter": {
        "terms": {
          "category_id": [
            "212",
            "213"
          ]
        }
      },
      "should": [
        {
          "match": {
            "title_completion": {
              "query": "Development",
              "boost": 20
            }
          }
        },
        {
          "wildcard": {
            "title": {
              "value": "*Development*",
              "boost": 1
            }
          }
        },
        {
          "wildcard": {
            "title_completion": {
              "value": "*Development*",
              "boost": 10
            }
          }
        },
        {
          "match": {
            "title": {
              "query": "Development",
              "operator": "and",
              "fuzziness": 1
            }
          }
        },
        {
          "range": {
            "created_at": {
              "gte": 1563264817998,
              "boost": 11
            }
          }
        },
        {
          "range": {
            "created_at": {
              "gte": 1563264040398,
              "boost": 4
            }
          }
        },
        {
          "range": {
            "created_at": {
              "gte": 1563256264398,
              "boost": 1
            }
          }
        }
      ]
    }
  }
}

最佳答案

首先，构建返回相关结果的请求通常是一项艰巨的任务。在不知道文件内容的情况下是做不到的。也就是说，我可以给你提示来满足你的要求并避免不相关的结果。

我们正在搜索标题和描述(标题中的匹配应该是描述的两倍重要)

您可以像在查询中那样使用 boost 来使标题匹配比描述匹配更重要。

我们希望它有一个非常模糊的搜索结果(但仍然是准确的结果)

你应该使用 AUTO模糊字段的值，以根据术语的长度定义不同的模糊值。例如，默认情况下少于 3 个字母的术语(最常见的术语，字母的变化会导致不同的词)将不允许更改。超过 3 个字母的条款允许更改 1 次，超过 5 个字母的条款允许更改 2 次。您可以根据您的测试更改此行为。

与搜索项不匹配的结果不应该被过滤掉，而只是稍后显示(所以匹配的结果应该在顶部，较差的结果应该在底部)

在bool 语句中使用should 子句。 should 语句中的子句不过滤文档(除非另有说明)。 should 子句中的查询仅用于提高分数。

category_id 应过滤掉产品(因此不应显示其他类别的结果)

在 bool 语句中使用 must of filter 子句来确保所有文档都验证约束。如果您不希望子查询对分数有贡献(我相信这是您的情况)，请使用 filter 而不是 match 因为 filter 会能够缓存结果。您的查询可以满足此要求。

created_at 属性在排序中也应该有很高的值(value)。产品应该失去他们获得的“旧”分数。 (这很重要，因为他们每天都在失去重要性)

你应该使用 function score用decay function .如果衰减函数对您来说不是很清楚，您可以跳过文档中的方程式并跳至不言自明的图形。以下查询是使用高斯衰减函数的示例。

{
    "function_score": {
        // Name of the decay function
        "gauss": {
            // Field to use
            "created_at": {
                    "origin": "now",  // "now" is the default so you can omit this field
                    "offset": "1d",   // Values with less than 1 day will not be impacted
                    "scale": "10d",   // Duration for which the scores will be scaled using a gauss function
                    "decay" : 0.01    // Score for values further than scale
            }
        }
    }
}

编写查询的提示

避免通配符查询:如果您使用*，它们效率不高并且会消耗大量内存。如果您希望能够搜索部分术语(当用户搜索“house”时找到“penthouse”)，您应该使用 ngram tokenizer 创建一个子字段并使用子字段编写标准的匹配查询。
避免设置最低分数:分数是一个相对值。分数低或高并不意味着文档相关或不相关。你可以阅读this article关于这个主题。
小心模糊查询:模糊会产生大量噪音并使用户感到困惑。一般来说，我会建议增加默认的 AUTO 模糊阈值，并接受一些拼写错误的查询不会返回好的结果。通常，与理解为什么他有完全不相关的结果相比，用户更容易检测到他输入中的拼写错误。

示例查询

这只是一个示例，您需要根据自己的数据进行调整。

{
  "size": 12,
  "query": {
    "bool": {
      "filter": {
        "terms": {
          "category_id": <CATEGORY_IDS>
        }
      },
      "should": [
        {
          "match": {
            "title": {
              "query": <QUERY>,
              "fuzziness": AUTO:4:12,
              "boost": 3
            }
          }
        },
        {
          "match": {
            "title_completion": {
              "query": <QUERY>,
              "boost": 1
            }
          }
        },
        {
          "match": {
            // title_completion field with ngram tokenizer
            "title_completion.ngram": {
              "query": <QUERY>,
              // Use lower boost because it match only partially
              "boost": 0.5
            }
          }
        }
      ]
    },
    "function_score": {
        // Name of the decay function
        "gauss": {
            // Field to use
            "created_at": {
                "origin": "now",  // "now" is the default so you can omit this field
                "offset": "1d",   // Values with less than 1 day will not be impacted
                "scale": "10d",   // Duration for which the scores will be scaled using a gauss function
                "decay" : 0.01    // Score for values further than scale
            }
        }
    }
  }
}

关于Elasticsearch 查询好的标题关键字结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57053073/

文章推荐： sql - 需要帮助来优化可能出错的空间 SQL 查询

文章推荐： ios - 'SessionDelegate' 没有名为 'xxx' 的成员

文章推荐： elasticsearch - 保持查询中的 id 顺序

html - 标题/标题
我附上了一个我尝试使用 html/css 实现的示例(如果您看不到图像:名字和姓氏，然后第二行是职位描述)。我希望所有文本(两行)在一个 div 中强制对齐(左和右)，但我不确定这是否可能。我尝试了一
html - Div 标题/标题
我想使两个 h1 元素成为 div 上的标题/页眉。所以每个都在特定的 div 之上。 Youtube Achievements
Android EditText 标题(标题)就像在 android 指南中
我想让每个 EditText 对象都有自己的标题，就像 Pure Android 指南中那样 (screenshot) 这个东西有原生支持吗？我想他们也可能会使用带有部分的 ListView ，但这对
swift - UICollectionView 标题 View 类似于表格 View 标题(不是节标题)
是否可以像 UITableView headerView 一样创建 UICollectionView 标题 View ？我的意思是整个集合 View 的标题 View ，而不是每个部分的重复 View
android - Material Design 排版 - 标题、标题、间距、文本外观
我一直在遵循有关排版的 Google 官方 Material 设计指南 (http://www.google.com/design/spec/style/typography.html)，但我发现它们
python - 是否有 Python 库来提取视频元数据，例如 [标题、描述、标题/字幕]？
我目前正在尝试找到可以帮助我从视频文件中提取元数据或信息的 python 库，例如 [ mp4, Mkv, Avi, WebM, mpg ] 格式为例。我主要从视频文件中提取的主要数据是 [标题、描
html - Bootstrap 缩略图 - 中心内容(img + 标题)，标题 float :left
你好，这是我正在尝试做的: 将每个缩略图的内容(img + 标题)居中。我的 img 必须是 span3，标题必须是 span4。这是我的问题: 我可以获取内容中心，或者标题 float 在 im
ios - UINavigationBar 后退按钮在某些设备或模拟器上显示 "Back"标题，在其他设备或模拟器上显示之前的 View Controller 标题
我有一个带有导航栏的应用程序，可以从一个 View Controller 导航到下一个 View Controller 。在某些模拟器和设备上导航到下一个 View Controller 时，后退按钮
sql - t-sql 这是如何工作的？ SELECT @MyList = ISNULL(@MyList ,'') + 标题 + ', ' FROM 标题
我遇到了一些非常酷的 t-sql，可以从一个 t-sql 查询中的选定行生成一个逗号分隔的列值列表: SELECT @MyList = ISNULL(@MyList,'') + Title + ',
HTML 标题
请确保将 HTML heading 标签只用于标题。不要仅仅是为了生成粗体或的文本而使用标题。搜索引擎使用标题为您的网页的结构和内容编制索引。因为用户可以通过标题来快速浏览您的网页，所以用标
每页上的 wkhtmltopdf 标题
我正在使用 wkhtmltopdf 将 html 转换为 pdf。我想在每个页面中添加标题，但它只显示在第一页(目录)中。我使用的命令是 "C:\Program Files\wkhtmltopdf
r - 如何在ggplot2中显示obs的方向(标题)
如何使用 ggplot2 显示观察的方向(标题)？有没有办法调整shape=17 (三角形)以便它“指向”下一次观察？示例代码 library(ggplot2) dat % pivot_wide
macos - 标题&&关闭按钮不显示
我尝试在 cocoa 应用程序中显示/隐藏标题栏。我使用以下代码: if ([window styleMask]==NSResizableWindowMask) { [wind
文本字段上的 JavaScript 标题
我有这样的 HTML 标题 http://s1.postimg.org/4ebyk3qwv/image.png 当我编写这段代码时: document.getElementById("TL85_1_
wordpress - 在Facebook上与视频共享URL不显示描述/标题
我叫麦克。谢谢你的帮助。在Wordpress中，我们已经设计了我们的网站，以便在Facebook调试器中og数据尽可能接近youtube。尽管如此，在Facebook上共享视频的方式还是不同的。尽管
scala - 返回确切的响应/标题？
从 web 应用程序的客户端，我点击了服务器端路由，它只是第三方 API 的包装器。使用分派(dispatch)，我试图让服务器端请求返回 exact header 和第三方 API 对客户端 AJA
scala - 返回确切的响应/标题？
从 web 应用程序的客户端，我点击了服务器端路由，它只是第三方 API 的包装器。使用分派(dispatch)，我试图让服务器端请求返回 exact header 和第三方 API 对客户端 AJA
SAPUI5 - 标题、侧边栏和导航
我是 SAPUI5 的新手，在导航、侧边栏和标题方面遇到一些问题。我想开发一个带有标题和侧边栏的应用程序。我为此使用“ToolPage”。每个页面都包含工具页，如下所示:
go - “标题”注释的目的
我最近在为客户做的项目中被介绍给Go。他们已经建立了代码库，需要进行一些更改。我注意到所有的方法，结构等等都有一些奇怪的类似于标题的注释，如下所示: // SomeType ... type Som
java - ListView 标题
我创建了一个采用整个屏幕布局的标题布局(xml 文件)... 我还创建了一个 listView 并将此 header_layout 添加到 listView 中: LayoutInflater inf

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城