elasticsearch - elasticsearch-按百分比过滤-6ren

elasticsearch - elasticsearch-按百分比过滤

转载作者：行者123 更新时间：2023-12-02 22:18:52

25

4

假设我要按10到20％范围内的某个字段过滤文档。我想知道是否可以通过一些简单的查询(例如{"fieldName":{"percentile": [0.1, 0.2]}})进行查询。

说我有这些文件:

[{"a":1,"b":101},{"a":2,"b":102},{"a":3,"b":103}, ..., {"a":100,"b":200}]

我需要按 a(按升序排列)过滤掉它们的前10位，即从1到10的 a。然后我需要按 b按降序对这些结果进行排序，然后进行分页结果(如第2页，每页10条)。

想到的一种解决方案是:

获取文档的总数。

按a对文档进行排序，取其相应的_id限制为0.1 * total_count

编写最终查询，类似于id in (...) order by b

但是缺点也很明显:

如果我们谈论的是亚秒级延迟，则

似乎并不有效

如果我们在第一个查询中返回的_id太多(第二个查询默认情况下，ES只允许1000个。我当然可以更改配置，但是总会有一个限制)，第二个查询可能无法工作。

最佳答案

我怀疑如果事先不知道a的确切值，是否可以在一个查询中执行此操作，尽管我认为一种非常有效的方法是可行的。

我建议做一个 percentiles aggregation作为第一个查询， range query作为第二个查询。

在我的样本索引中，我只有14个文档，因此出于解释的原因，我将尝试查找占a字段30％到60％的那些文档，并按相反的顺序按b字段对它们进行排序(以确保排序有效) 。

这是我插入的文档:

{"a":1,"b":101}
{"a":5,"b":105}
{"a":10,"b":110}
{"a":2,"b":102}
{"a":6,"b":106}
{"a":7,"b":107}
{"a":9,"b":109}
{"a":4,"b":104}
{"a":8,"b":108}
{"a":12,"b":256}
{"a":13,"b":230}
{"a":14,"b":215}
{"a":3,"b":103}
{"a":11,"b":205}

让我们找出在30％到60％百分位数之间 a字段的范围:

POST my_percent/doc/_search
{
    "size": 0,
    "aggs" : {
        "percentiles" : {
            "percentiles" : {
                "field" : "a",
                "percents": [ 30, 60, 90 ]
            }
        }
    }
}

用我的样本索引看起来像这样:

{
...
  "hits": {
    "total": 14,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "percentiles": {
      "values": {
        "30.0": 4.9,
        "60.0": 8.8,
        "90.0": 12.700000000000001
      }
    }
  }
}

现在我们可以使用边界进行 range查询:

POST my_percent/doc/_search
{
    "query": {
      "range": {
            "a" : {
                "gte" : 4.9,
                "lte" : 8.8
            }
        }
    },
    "sort": {
      "b": "desc"
    }
}

结果是:

{
  "took": 5,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 4,
    "max_score": null,
    "hits": [
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "vkFvYGMB_zM1P5OLcYkS",
        "_score": null,
        "_source": {
          "a": 8,
          "b": 108
        },
        "sort": [
          108
        ]
      },
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "vUFvYGMB_zM1P5OLWYkM",
        "_score": null,
        "_source": {
          "a": 7,
          "b": 107
        },
        "sort": [
          107
        ]
      },
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "vEFvYGMB_zM1P5OLRok1",
        "_score": null,
        "_source": {
          "a": 6,
          "b": 106
        },
        "sort": [
          106
        ]
      },
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "u0FvYGMB_zM1P5OLJImy",
        "_score": null,
        "_source": {
          "a": 5,
          "b": 105
        },
        "sort": [
          105
        ]
      }
    ]
  }
}

注意 percentiles聚合的结果是近似的。

通常，这看起来像是可以通过 pandas或 Spark作业更好地解决的任务。

希望有帮助!

关于elasticsearch - elasticsearch-按百分比过滤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50166949/

25

4

0

文章推荐： powershell - 无需BOM将源转换为UTF-8

文章推荐： arrays - F# - 定义对象数组

文章推荐： scala - 使用elastic4s获取NoClassDefFoundError

language-agnostic - 百分比、百分比、分数、比例因子的术语？
我的函数概念上都返回相同的东西，但结果可以采用不同的形式: function GetThingy() 有四个不同的函数，每个可以返回不同的东西: 0.071(代表增长 7.1% 的 float 值)
Java 百分比
这个问题在这里已经有了答案: Int division: Why is the result of 1/3 == 0? (19 个回答) 关闭 4 年前。有什么方法可以计算(例如)120 的 50
范围格式中每个单元格的 VBA 百分比
我四处寻找这个，它看起来很简单，但我无法让它工作。我有一张表格，其中一列需要格式化为百分比。下面是我的代码，但它没有格式化单元格，它只是将它们保留为小数。我想这是因为 cell ，即使声明为范围，
WPF - margin 百分比
我刚刚开始使用 WPF。从那以后，我开始关注造型系统。我来自 CSS 背景，我想以百分比设置边距。当前值以像素为单位
真实列的 SQL 百分比
我有一个表，其中每一行都有一个描述字段和一个 bool 值。我正在尝试编写一个查询，我可以在其中按每个相应的描述进行分组，并查看 bool 值为真的次数百分比。示例表: PID Gen
caching - OrientDB中的磁盘缓存如何按读缓存和写缓存分开(百分比)
我从文档中发现，考虑到 orientdb 100% 使用磁盘缓存，它使用的最大大小为 70% 用于读取缓存，30% 用于写入缓存 ( http://orientdb.com/docs/last/plo
Docker CPU 百分比
有什么方法可以获取 docker 容器内部而不是外部的 cpu 百分比吗？! docker stats DOCKER_ID 显示的百分比正是我需要的，但我需要它作为变量。我需要获取容器本身内部的 cp
r - 计算数据集每列的比例(百分比)
我正在尝试计算数据集每列中类别的比例(百分比)。示例数据: df <- data.frame( "Size" = c("Y","N","N","Y","Y"), "Type" =
SQL:你用什么在数据库中存储比率(百分比)？
我应该使用小数还是 float 在数据库中存储比率？特别是在 SQL2005 中。最佳答案这取决于您对准确性的需求。如果您可以容忍来自存储 float 的 IEEE 方法的典型错误，则使用 flo
Lua:随机:百分比
我正在创建一个游戏，目前必须处理一些math.random问题。我的Lua能力不是那么强，你觉得怎么样您能制定一个使用 math.random 和给定百分比的算法吗？我的意思是这样的函数: fu
动态计算的 SQL 百分比
如何在SQL中动态计算百分比？假设您有一个名为 Classes 的下表: ClassSession StudentName -------------------------------
javascript - 掩码输入数字 - 百分比
如何通过 jQuery 创建具有百分比的数字掩码输入？我是否让输入仅接受三个数字，并在用户完成输入时在数字后添加百分号(keyup)？我不使用插件。示例:1% 或 30% 或 99% 或 100%
Python-删除字典对的比例/百分比
我正在尝试构建一个工具，可以突出显示具有最高介数中心性的社交网络节点。我将所有网络节点的测量值计算到字典中，按顺序对字典进行排序，然后仅保留前 3 对。我希望这个工具是可扩展的，所以我想保留前 10
mysql - 同列计算/百分比
MYSQL 中的人员如何将一个日期条目和分数的用户百分比与另一个日期条目和分数进行比较，从而有效地返回从一个日期到另一个日期的用户百分比增加情况？几天来我一直在试图解决这个问题，但我已经没有想法了，
mysql - SQL - 百分比
我需要进行查询，结果是百分比。我现在的查询如下所示: select COUNT(CREATE_WEEKDAY), CREATE_WEEKDAY, COUNT(CREATE
javascript - AJAX图片上传时生成加载条/百分比
我有一个图像上传功能，其工作原理如下: $('.update-insertimage-form').submit(function() { $(".submit-newupdate-btn").add
Html - 容器中的图像高度(百分比)
我的问题很简单，但我仍然找不到这个问题的答案... 假设我们有两个包含图像的容器。我们有类似的东西 #containera { width: 50%; height: 50%; backgr
其他元素的 CSS 百分比
是否可以将 CSS 尺寸指定为除其父元素之外的另一个元素的百分比？例如，我想将 div 的 border-radius 指定为 div 宽度的 10%。但是，border-radius: 10% 在
html - 输入和提交按钮的大小(百分比)
我正在尝试设置按钮的大小并以百分比进行编辑但是这个的线性大小是不同的。为什么？最佳答案您好，问题出在属性 box-sizing 上.默认为 input type
html - 如何将数据可见范围更改为 % 百分比
我将它用于我的页眉，该页眉在一页上下滚动页面中发生变化。我注意到它没有响应，所以我想问你是否知道一种使它响应的方法。就像将 0-690 更改为百分比，以便它可以在移动设备和电视屏幕上使用。 HTML

首页

博学

6Ren·AI

商城

elasticsearch - elasticsearch-按百分比过滤