performance - 具有高基数字段的 ElasticSearch 术语和基数性能-6ren

performance - 具有高基数字段的 ElasticSearch 术语和基数性能

转载作者：行者123 更新时间：2023-12-02 22:30:03

26

4

TL;博士

与 SQL Server 上的相同查询相比，我的 ElasticSearch 查询需要很长时间。
难道我做错了什么？有什么方法可以提高我的查询性能？
它只是 RDBMS 比 NoSQL 做得更好的事情之一吗？

前提

假设我有一家接受订单并交付所需元素的企业。

我想知道每个订单的平均独特商品数量。

我的订单数据按订购的每件商品排列 - 每个订单都有一条或多条记录，其中包含订单 ID、商品 ID 等。

我有一个用于开发目的的单节点设置

无论我有 4 GB 堆空间(在 12 GB 机器上)还是 16 GB 堆空间(在 32 GB 机器上)，结果(性能方面)都是相同的

该索引有数十亿条记录，但查询将其过滤为大约 300,000 条记录

订单和商品 ID 属于关键字类型(本质上是文本)，我无法更改它。

在这种特殊情况下，平均独特商品数为 1.65 - 许多订单仅包含一件独特商品，其他订单包含 2 件，少数包含多达 25 件独特商品。

问题

使用 ElasticSearch，我将不得不使用术语聚合按订单 ID 对文档进行分组，使用基数聚合来获得唯一项目数，并使用平均桶聚合来获得每个订单的平均项目数。

这在我的两个设置中都需要大约 23 秒。在 SQL Server 上使用相同的数据集进行相同的查询不到 2 秒。

附加信息

Elasticsearch 查询

{
   "size":0,
   "query":{
      "bool":{
         "filter":[
            {
               ...
            }
         ]
      }
   },
   "aggs":{
      "OrdersBucket":{
         "terms":{
            "field":"orderID",
            "execution_hint":"global_ordinals_hash",
            "size":10000000
         },
         "aggs":{
            "UniqueItems":{
               "cardinality":{
                  "field":"itemID"
               }
            }
         }
      },
      "AverageItemCount":{
         "avg_bucket":{
            "buckets_path":"OrdersBucket>UniqueItems"
         }
      }
   }
}

起初，我的查询生成了 OutOfMemoryException，导致我的服务器停机。
在我更高的 ram 设置上发出相同的请求会产生以下断路器:

[request] Data too large, data for [<reused_arrays>] would be
[14383258184/13.3gb], which is larger than the limit of
[10287002419/9.5gb]

ElasticSearch github 在这个问题上有几个(当前) Unresolved 问题:

Cardinality aggregation should not reserve a fixed amount of memory per bucket #15892

global_ordinals execution mode for the terms aggregation has an adversarially impact on children aggregations that expect dense buckets #24788

Heap Explosion on even small cardinality queries in ES 5.3.1 / Kibana 5.3.1 #24359

所有这些都导致我使用执行提示“global_ordinals_hash”，它允许查询成功完成(尽管需要时间..)

类比 SQL 查询

SELECT AVG(CAST(uniqueCount.amount AS FLOAT)) FROM 
(   SELECT o.OrderID, COUNT(DISTINCT o.ItemID) AS amount 
    FROM Orders o
    WHERE ...
    GROUP BY o.OrderID 
) uniqueCount

正如我所说，这非常非常快。

orderID 字段映射

{
   "orderID":{
      "full_name":"orderID",
      "mapping":{
         "orderID":{
            "type":"keyword",
            "boost":1,
            "index":true,
            "store":false,
            "doc_values":true,
            "term_vector":"no",
            "norms":false,
            "index_options":"docs",
            "eager_global_ordinals":true,
            "similarity":"BM25",
            "fields":{
               "autocomplete":{
                  "type":"text",
                  "boost":1,
                  "index":true,
                  "store":false,
                  "doc_values":false,
                  "term_vector":"no",
                  "norms":true,
                  "index_options":"positions",
                  "eager_global_ordinals":false,
                  "similarity":"BM25",
                  "analyzer":"autocomplete",
                  "search_analyzer":"standard",
                  "search_quote_analyzer":"standard",
                  "include_in_all":true,
                  "position_increment_gap":-1,
                  "fielddata":false
               }
            },
            "null_value":null,
            "include_in_all":true,
            "ignore_above":2147483647,
            "normalizer":null
         }
      }
   }
}

我设置了 eager_global_ordinals 试图提高性能，但无济于事。

样本文件

{
            "_index": "81cec0acbca6423aa3c2feed5dbccd98",
            "_type": "order",
            "_id": "AVwpLZ7GK9DJVcpvrzss",
            "_score": 0,
            "_source": {
        ...
               "orderID": "904044A",
               "itemID": "23KN",
        ...
            }
}

为了简洁和不公开的内容，删除了不相关的字段

样本输出

{
   "OrdersBucket":{
      "doc_count_error_upper_bound":0,
      "sum_other_doc_count":0,
      "buckets":[
         {
            "key":"910117A",
            "doc_count":16,
            "UniqueItems":{
               "value":16
            }
         },
         {
            "key":"910966A",
            "doc_count":16,
            "UniqueItems":{
               "value":16
            }
         },
        ...
         {
            "key":"912815A",
            "doc_count":1,
            "UniqueItems":{
               "value":1
            }
         },
         {
            "key":"912816A",
            "doc_count":1,
            "UniqueItems":{
               "value":1
            }
         }
      ]
   },
   "AverageItemCount":{
      "value":1.3975020363833832
   }
}

任何帮助将不胜感激:)

最佳答案

显然 SQL Server 在缓存这些结果方面做得很好。
进一步调查显示，初始查询与 ElasticSearch 所用的时间相同。

我将研究为什么这些结果没有通过 ElasticSearch 正确缓存。

我还设法将订单 ID 转换为整数，这极大地提高了性能(尽管与 SQL Server 的性能提升相同)。

另外，as advised by Mark Harwood on the Elastic Forum ，在基数聚合上指定precision_threshold 大大降低了内存消耗!

所以答案是，对于这种特定类型的查询，ES 的性能至少与 SQL Server 一样好。

关于performance - 具有高基数字段的 ElasticSearch 术语和基数性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44225038/

26

4

0

文章推荐： winapi - 在压缩的 Windows 上存储声音的好格式是什么？

文章推荐： database - Elasticsearch Date直方图存储桶从错误的日期开始

文章推荐： elasticsearch - Storm 搜寻器搜寻和索引

drupal - 页面管理器模块无法启用分类/术语/%术语，因为其他一些模块已被覆盖
我正在使用 drupal 6.20 以及一些模块，包括面板、 View 和其他一些模块.. 问题是，每当我尝试启用面板提供的分类法覆盖页面时，我都会收到此错误，我修改了它等等，我似乎找不到一种方法来启
java - 术语:实例变量的单字 Java 术语？
我正在寻找在类(非静态)中声明的实例变量的替代 OO/Java 术语，或者更具体地说，在用 JPA 注释“装饰”的 Java 类中声明的实例变量: @Entity @Table(name = "Dep
LISP 术语
字母“t”在 LISP 中是什么意思？例如: (defun last2 (lst) (cond ((null lst) nil) ((null (cdr lst)) (car l
Java 术语
我是 Java 的新手，想了解更多。我有一个当前问题想要得到解答，但我也想知道该技术指的是什么，以便我可以做一些进一步的阅读。我目前有这样的东西: public class BasicActivit
HTML 术语
是否有针对 HTML 标签的术语来区分哪些应该有结束标签，哪些不应该？例如，和应该有伴随和标签。另一方面，和不应该。第一组叫什么，第二组叫什么？最佳答案我相信是一个“空元素”，而不
c# - 术语 - 在不同的命名空间中声明方法是否算作重载
基本上，问题已经总结在标题中。如果我们在不同的命名空间中有两个具有相同签名(即相同的名称、参数类型和顺序、泛型类型参数编号)的方法/函数，这算不算重载？这是一个 C# 问题，但我很想为不同的 OOP
oop - 术语:类和组件有什么区别？
在 OO 范式中，我们选择使用类，因为它们可以帮助我们分解系统，并提供很好的附带好处，例如封装、职责分离、继承、模块化等。如果我们在组件级别查看软件系统，我们是否可以简单地以相同的概念方式对待组件，
GitHub:术语:创建拉取请求与打开拉取请求
创建拉取请求和打开拉取请求之间有区别吗？创建拉取请求的一些短语示例: 创建一个拉取请求以提议和协作对存储库的更改。您可以在创建拉取请求时指定要将更改合并到哪个分支。要创建草稿拉取请求，请使用下拉
powershell - 术语 'X'无法识别为cmdlet的名称
我发现this script可以循环遍历.csv文件并将它们组合成一个Excel工作表。然后，我创建了第二个脚本，以如下方式调用该脚本: echo "Combining .csv files into
可变作用域的 JavaScript 术语
我忘记了 javascript 中用来描述特定现象的术语。它与内联函数中访问变量的方式有关。我也不太明白这个理论。我依稀记得下面的代码 for(var c = 0; c< 10; c++) { a
java - 如何清除标准输入(术语)
如何清除Java中的标准输入(术语)？一点历史:我正在编写一个“反射”程序，算法非常简单: wait a random amount of time print "press enter" read
javascript - 是否有调用所有同名实例方法的静态方法的名称/术语？
给定以下代码，是否存在一个静态方法的名称/术语，它为每个现有实例调用同名的实例方法？这是任何编程语言的常见做法吗？用例是能够进行一个函数调用并确保所有实例都受到影响，而无需为该方法复制代码。注意
javascript - (术语)如何在变量中引用变量？
这个问题在这里已经有了答案: Accessing nested JavaScript objects and arrays by string path (44 个答案) 关闭 6 年前。我需要澄
java - 如何在Java中读取一行的第一个元素/术语？
我的目标是从给定的输入文件中读取每行的第一个元素/术语，然后根据第一个元素是什么来决定要做什么(使用 if-else 构造)。 IE。如果第一个元素/单词恰好是“the”(如下面的代码中所述)，那么我
用于区分运行时类型和编译时类型的 Java 术语
在 Java 中，对象可以有一个运行时类型(这是它创建时的类型)和一个转换类型(您将其转换为的类型)。我想知道这些类型的正确名称是什么。例如 class A { } class B extends
python - 术语:用户定义的函数对象属性？
根据 Python 2.7.12 文档，User-defined methods : User-defined method objects may be created when getting a
javascript - 术语:制表符是不间断空格吗？
据我所知，nbsp(不间断空格)是这样的:。但制表符 (\t) 也是不间断空格，对吗？我的意思是它不会创建新行。如果上述所有内容都是正确的，那么如何调用可以包含或 \t 的变量？像 tabOrNb
Javascript 术语 - 工作表是对象吗？
我使用 GAS 已经有一段时间了，但没有很强的 Javascript 背景，并且在忽略大小写的情况下按字母顺序对工作表进行排序时遇到了问题。我做了一些搜索，并根据 SO 中的其他公开答案和其他一些来源
c - 术语 : what's a pointer?
我是初学者，我在编程中发现了术语指针的几种定义。我想知道哪一个是正确的(也许两个都是)？ a - 指针是保存内存地址的变量。鉴于此定义，在以下代码 char *msg; 中，我们可以说变量 msg 是
Git:Rebase 术语
给定以下分支 A---B---C topic (HEAD) / D---E---F---G master 并运行命令 git rebase master 这是否意味着，我们是将 t

首页

博学

6Ren·AI

商城

performance - 具有高基数字段的 ElasticSearch 术语和基数性能