- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们在 elastic(1.6.2) 中存储了约 20M(酒店优惠)文档,重点是按多个字段(duration、start_date、adults、kids
)对文档进行分组,然后选择一个最便宜的从每个组中提供。我们必须按成本字段对这些结果进行排序。
为了避免子聚合,我们将目标字段值联合到一个名为 default_group_field
的集合中,方法是用点 (.
) 连接它们。
该字段的映射如下所示:
"default_group_field": {
"index": "not_analyzed",
"fielddata": {
"loading": "eager_global_ordinals"
},
"type": "string"
}
我们执行的查询如下所示:
{
"size": 0,
"aggs": {
"offers": {
"terms": {
"field": "default_group_field",
"size": 5,
"order": {
"min_sort_value": "asc"
}
},
"aggs": {
"min_sort_value": {
"min": {
"field": "cost"
}
},
"cheapest": {
"top_hits": {
"_source": {}
},
"sort": {
"cost": "asc"
},
"size": 1
}
}
}
}
},
"query": {
"filtered": {
"filter": {
"and": [
...
]
}
}
}
}
问题是这样的查询需要几秒钟(2-5 秒)才能加载。
但是,一旦我们在不使用聚合的情况下执行查询,我们就会在不到 100 毫秒的时间内获得适量的结果(比如 “total”: 490
)。
{
"took": 53,
"timed_out": false,
"_shards": {
"total": 6,
"successful": 6,
"failed": 0
},
"hits": {
"total": 490,
"max_score": 1,
"hits": [...
但是聚合需要 2 秒:
{
"took": 2158,
"timed_out": false,
"_shards": {
"total": 6,
"successful": 6,
"failed": 0
},
"hits": {
"total": 490,
"max_score": 0,
"hits": [
]
},...
处理中等数量的过滤文档并从每组中选择最便宜的文档似乎不应该花这么长时间。它可以在应用程序内部完成,这对我来说似乎是一个丑陋的 hack。
日志中满是这样的行:
[DEBUG][index.fielddata.plain] [Karen Page] [offers] Global-ordinals[default_group_field][2564761] 花费了 2453 毫秒
这就是我们更新映射以在索引更新时执行急切的 global_ordinals 重建的原因,但这并未对查询时间产生显着影响。
有没有什么方法可以加速这种聚合,或者有什么方法可以告诉 elastic 只对过滤后的文档进行聚合。
或者可能还有另一个来源导致如此长的查询执行?非常感谢任何想法!
最佳答案
再次感谢您的努力。
终于解决了主要问题,性能恢复正常。
简而言之,我们做了以下事情: - 将 default_group_field
的映射更新为 Long
类型 - 压缩 default_group_field
值,使其匹配类型 Long
一些解释:
字符串字段的聚合需要对其进行一些工作。正如我们从日志中看到的那样,为具有很大差异的字段构建 Global Ordinals
非常昂贵。事实上,我们只对提到的字段进行聚合。尽管如此,使用 String
类型并不是很有效。
所以我们将映射更改为:
default_group_field: {
type: 'long',
index: 'not_analyzed'
}
这样我们就不会触及那些昂贵的操作。
在此之后,相同的查询时间减少到约 100 毫秒。它还降低了 CPU 使用率。
PS 1
我从 global ordinals 上的文档中获得了很多信息
PS 2
我仍然不知道如何使用 String
类型的字段来绕过这个问题。如果您有任何想法,请发表评论。
关于elasticsearch - 非常慢的 elasticsearch 术语聚合。如何提高?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37615092/
我正在比较工作簿中的工作表。该工作簿有两张名为 PRE 和 POST 的工作表,每张工作表都有相同的 19 列。行数每天都不同,但特定一天的两张表的行数相同。该宏将 PRE 工作表中的每一行与 POS
我有一个对象数组,我一次循环遍历该数组一个对象,然后进行几次检查以查看该数组中的每个对象是否满足特定条件,如果该对象满足此条件,则复制一个属性将此对象放入数组中(该属性还包含另一个对象)。 for(v
我正在编写一个必须非常快的应用程序。我使用 Qt 5.5 和 Qt Creator,Qt 的 64 位 MSVC2013 编译版本。 我使用非常困倦的 CS 来分析我的应用程序,我看到占用最多独占时间
我有以下 CountDownTimer 在我的 Android 应用程序中不断运行。 CountDownTimer timer_status; timer_status = new CountDown
有一个优化问题,我必须调用随机森林回归器的预测函数数千次。 from sklearn.ensemble import RandomForestRegressor rfr = RandomForestR
我正在努力提高现有 Asp.Net Web 应用程序的数据访问层的性能。场景是。 它是一个基于 Web 的 Asp.Net 应用程序。 数据访问层使用 NHibernate 1.2 构建并作为 WCF
我在我的 Intel Edison 上运行 Debian,并尝试使用 ffmpeg 通过 USB 网络摄像头捕获视频。我正在使用的命令是: ffmpeg -f video4linux2 -i /dev
我有一个 For循环遍历整数 1 到 9 并简单地找到与该整数对应的最底部的条目(即 1,1,1,2,3,4,5 将找到第三个“1”条目)并插入一个空白行。我将数字与仅对应于此代码的应用程序的字符串“
我有一个带有非规范化架构(1 个表)的 postgresql 数据库,其中包含大约 400 万个条目。现在我有这个查询: SELECT count(*) AS Total, (SELECT c
在 Ltac 中实现复杂的策略时,有一些 Ltac 命令或策略调用我预计会失败以及预期失败(例如终止 repeat 或导致回溯)。这些故障通常在故障级别 0 时引发。 更高级别引发的故障“逃避”周
我正在尝试提高 ansible playbook 的性能。我有一个测试剧本如下: --- - name: Test hosts: localhost connection: local g
我正在使用 axios从 Azure 存储 Blob 下载文件 (~100MB)。 axios({ method: 'get', url: uri, onDownloadProgress:
我有一个 ClojureScript 程序,主要对集合执行数学计算。它是在惯用的、独立于主机的 Clojure 中开发的,因此很容易对其进行基准测试。令我惊讶的是(与答案对 Which is fast
我有一个程序必须在硬件允许的情况下尽快发出数千个 http 请求。在现实世界中,这些连接中的每一个都将连接到一个离散的服务器,但我已经编写了一个测试程序来帮助我模拟负载(希望如此)。 我的程序使用 A
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在计算 Clojure 中 3d 点云的边界框。点云表示为 Java 原始浮点数组,点云中的每个点都使用 4 个浮点存储,其中最后一个浮点未使用。像这样: [x0 y0 z0 u0 x1 y1
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我正在尝试使用rayshader 包制作图像。我很高兴能够使用如下代码创建一个 png 文件: library(ggplot2) library(rayshader) example_plot <-
更新 显然,jQuery 模板可以被编译,并且它有助于显示带有 if 语句 的模板的性能 here . 但是如图here ,预编译的 jQuery 模板对我的情况没有多大作用,因为我的模板不包含逻辑
我是编程新手。我有一个启用分页的 ScrollView ,其中包含许多页面(最多十个),并且在每个页面上都有一个自定义按钮。每个自定义按钮都有一个自定义图像。我在 Interface Builder
我是一名优秀的程序员,十分优秀!